Spark
大数据-刘耀文
这个作者很懒,什么都没留下…
展开
-
streaming-kafka:streaming消费kafka数据
Kafka-消费模型High Level Consumer API不需要自己管理offset默认实现最少一次消息传递语义(At least once)comsumer数量 大于 partiton数量, 浪费。comsumer数量 小于 partiton数量, 一个comsumer对应多个partiton最好partiton数目是consumer数目的整数倍Low Level Cons...原创 2019-01-10 20:29:08 · 1992 阅读 · 1 评论 -
Spark零碎知识点
RDD的概念:RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。个人注释(非官方):不可变:每一个算...原创 2019-01-06 15:37:16 · 1623 阅读 · 0 评论 -
Spark Stream之DStream的三个特殊原语updateStateByKey、transform、window operations
updateStateByKey:将历史结果应用到当前批次。import org.apache.spark.{HashPartitioner, SparkConf}import org.apache.spark.streaming.dstream.DStreamimport org.apache.spark.streaming.{Seconds, StreamingContext}/**...原创 2019-01-22 15:44:39 · 487 阅读 · 0 评论 -
Kafka常见问题
kafka常见问题目录:1、如果想消费已经被消费过的数据2、如何自定义去消费已经消费过的数据3、kafka partition和consumer数目关系4、kafka topic 副本问题5、kafka如何设置生存周期与清理数据6、zookeeper如何管理kafka7、SparkStreaming之Kafka的Receiver和Direct方式讲解1、如果想消费已经被消费过的数...原创 2019-02-23 11:54:55 · 456 阅读 · 0 评论 -
streaming消费kafka的两种方式Receiver/Direct优缺点
streaming消费kafka的两种方式的优缺点的总结Receiver方式:Receiver从Kafka中获取数据都是存储在Spark Executor内存中的,然后Spark Streaming启动的job会去处理那些数据。优点:操作简单方便,不用自己管理offset。缺点:各方面都不如Direct方式。Direct方式:它会周期性的查询kafka,来获取每个topic + par...原创 2019-02-23 16:18:11 · 1464 阅读 · 0 评论 -
ElasticSearch优化
目录:1.ElasticSearch生产集群配置优化2.Spark整合Elasticsearch优化ElasticSearch生产集群配置优化集群主机(节点)配置相近集群中主机最好配置相近,集群的性能符合木桶定律,即集群的查询性能是由集群中性能最差的主机决定的。建议使用SSD硬盘替换传统的机械硬盘ES对IO的性能要求比较高。ES内存配置不要超过32G指定的堆内存可以是节点总内存的...原创 2019-02-23 19:53:46 · 1252 阅读 · 0 评论 -
ElasticSearch常用操作Java api
import org.elasticsearch.action.admin.indices.mapping.put.PutMappingRequest;import org.elasticsearch.action.get.GetResponse;import org.elasticsearch.action.get.MultiGetItemResponse;import org.elast...原创 2019-02-23 22:06:18 · 582 阅读 · 0 评论 -
ElasticSearch操作RDD获取字段
import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}import org.elasticsearch.spark._/** * @Description :es操作RDD获取字段 * @Author: lyw * @Date: 2019/1/16 11:04 * @V...原创 2019-02-23 22:22:28 · 1449 阅读 · 1 评论