大数据
文章平均质量分 65
sinat_32176267
我来自红星
展开
-
es学习分享
1.es写入原理、查询原理为什么搜索是近实时的? Elasticsearch 是怎样保证更新被持久化在断电时也不丢失数据? 为什么删除文档不会立刻释放空间?1.1ES写入流程以下是从主分片或者副本分片检索文档的步骤顺序:1、客户端向Node 1发送获取请求。2、节点使用文档的_id来确定文档属于分片0。分片0的副本分片存在于所有的三个节点上。 在这种情况下,它将请求转发到Node 2。3、Node 2将文档返回给Node 1,然...原创 2021-08-04 10:36:37 · 394 阅读 · 0 评论 -
Spark常用API<Scala>
概览 1.转换 2.动作 1.Transformation 1.1一个RDD进行转换操作 1.2 两个RDD的转换操作 1.3对一个Pair RDD进行转化操作 1.4对两个PairRDD进行转换操作 2.Action 2.1对一个RDD进行行动操作 2.2Pair RDD行动操作 概览这里只有 Scala 的API,Java 与 Python...原创 2020-04-18 10:17:17 · 455 阅读 · 0 评论 -
Spark常用API<Java>
1.Transformation操作<Java>主要做的是就是将一个已有的RDD生成另外一个RDD。Transformation具有lazy特性(延迟加载)。Transformation算子的代码不会真正被执行。只有当我们的程序里面遇到一个action算子的时候,代码才会真正的被执行对1.1一个RDD进行转换操作举例:对一个数组为{1, 2, 3, 3}的RDD进行基本的R...原创 2020-04-18 10:16:08 · 559 阅读 · 0 评论 -
Druid系列 《二》Druid使用与安装
2.1加载数据到DruidDruid支持流式(实时)和基于文件(批量)的数据提取方式。最常用的配置是:Files - 通过HDFS、S3、本地文件或者任何支持hadoop文件系统批量加载数据。如果你的数据集已经在这类文件系统中推荐使用这个方法。 Stream push - 使用Tranquility(向Druid发送流的客户端)将实时数据流推送到Druid。如果你的数据集来自于流式...原创 2018-08-31 10:45:35 · 2772 阅读 · 0 评论 -
Druid实践系列《一》
一、Druid介绍... 21.1官方介绍... 21.2架构:... 31.3 Data Storage and Segment 41.4数据... 51.4查询过程... 7二、Druid使用... 72.1加载数据到Druid. 72.1.1加载静态数据... 82.1.2加载流式数据... 82.2数据查询... 9三、单机安装... 103...原创 2018-08-31 10:42:52 · 917 阅读 · 0 评论 -
Scala中的Option方法和GetOrElse
对于some来说:如果some指定了一个数,那从这里面取getOrElse方法结果都是该指定的数,若Option为空,则取出的getOrElse值是后面的指定的值,与option无关。就是一个默认的缺省值一样。Option[Int]是类型 Int的容器,更确切地说,你可以把它看作是某种集合,这个特殊的集合要么只包含一个元素(即单词的历史词频),要么就什么元素都没有(这个单词历史上没...原创 2018-08-20 15:47:18 · 3266 阅读 · 0 评论 -
SparkStreaming《三》读取kafka数据,增量保存在Mysql里
一、SparkStreaming读取kafka数据package org.apache.spark.examples.streamingimport java.sql.{PreparedStatement, Connection, DriverManager}import java.util.concurrent.atomic.AtomicIntegerimport org.apach...原创 2018-08-20 15:17:37 · 1658 阅读 · 0 评论 -
Spark打包方式SBT
下载sbt地址:sudo mkdir /usr/local/sbtsudo chown -R hadoop /usr/local/sbt # 此处的 hadoop 为你的用户名cd /usr/local/sbt安装以后 把sbtlanuncher放在sbt目录下接着在 /usr/local/sbt 中创建 sbt 脚本(vim ./sbt),添加如下内容:#!/b...转载 2018-08-16 20:21:46 · 1687 阅读 · 0 评论 -
SparkStreaming 搭建《一》Win10可通用,供参考
是在本地windows配的,具体的如何配置其实要搞的麻烦事很多,多百度吧。编译环境:Spark2.3.1scala2.11.8jdk1.8hadoop2.6.5hive1.2.2kafka1.1.0Hbase1.4.5 一、新建工程:File-scala-idea二、指定工程名称,JDK版本,Scala版本。三、这里你看到的是scala项目,...原创 2018-08-16 14:52:31 · 1562 阅读 · 0 评论 -
Spark搭建历程-《sparkStreaming》1
在虚拟机上搭运行spark程序的时候: spark-submit --queue media --class test.SparkStreamingDemo --master yarn-cluster --executor-memory 2g --executor-cores 2 --conf spark.yarn.submit.waitAppCompletion=false ~/s...原创 2018-08-16 11:37:02 · 350 阅读 · 0 评论