![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
structure streaming
文章平均质量分 52
jin6872115
这个作者很懒,什么都没留下…
展开
-
structure streaming 使用小结3-输出模式(append,update,complete)
常规使用不提,主要是使用不同模式完成排序,数据更新操作,算是对小结2的补充优化。1、排序,使用complete模式,将数据流看做静态表,不断追加数据,通过order by可以实现排序功能。val df =spark.readStream .format("kafka") .option("kafka.bootstrap.servers", "*:9092")// .option("kafka.bootstrap.servers", "*:9092")原创 2021-07-28 13:36:59 · 733 阅读 · 0 评论 -
structure streaming 使用小结2-正确率
背景,使用structure streaming 实现类似关系型数据库的update操作。测试方法:分别采用append和update模式进行,选定一个主键rowkey,进行value的数据更新操作,通过seleep控制数据产生的速度。通过控制台显示数据,当数据产生速度在间隔1s以上时,数据顺序正确,可以正常显示。当产生速度在800ms以下时,数据会产生顺序错乱。业务描述,统计卖票钱数,数据来源是更新的(ogg同步的oracle的累计表),当一秒内卖出多张票,kafka会接受到多条数据,需要按照原创 2021-07-12 11:55:01 · 126 阅读 · 0 评论 -
structure streaming 使用小结1-效率(数据更新速度以及优化)
版本spark3.0.0,总结来源官网以及开发过程中的实验所得。背景,做的一个实时项目,通过测试发现数据更新速度在15s左右,完全不能满足要求,领导要求查找可以优化的地方,对整个链路进行拆分研究,优化代码链路为kafka->structure streaming->hbase测试方法:虚机--num-executors 10 --executor-cores 3 \--driver-memory 4g --executor-memory 6g \--total-exec原创 2021-07-09 17:10:10 · 560 阅读 · 1 评论