Spark Streaming
Spark Streaming 实战项目,由入门到放弃。
857技术社区
这个作者很懒,什么都没留下…
展开
-
Spark整合Nacos实时修改配置
一、Nacos git clone https://github.com/alibaba/nacos.git 直接拉代码 编译:mvn -Prelease-nacos clean install -U -Dmaven.test.skip=true 注意:不加跳过测试类编译会报错 进去/opt/nacos/distribution/target/nacos-server-1.4.0-SNAPSHOT/nacos/conf 在mysql中创建nacos_config库,建..原创 2020-08-21 17:49:50 · 2048 阅读 · 0 评论 -
Spark Streaming状态操作: updateStateByKey、mapWithState
在Spark Streaming中,DStream的转换分为有状态和无状态两种。无状态的操作,即当前批次的处理不依赖于先前批次的数据,如map()、flatMap()、filter()、reduceByKey()、groupByKey()等等;而有状态的操作,即当前批次的处理需要依赖先前批次的数据,这样的话,就需要跨批次维护状态。 总结spark streaming中的状态操作:updateStateByKey、mapWithState updateStateByKey 对整个实时计算的所有时间间隔内原创 2020-06-30 16:58:17 · 4203 阅读 · 0 评论 -
spark2.0 scala2.11.8整合kafka0.10新特性pom及代码
Pom如下 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org原创 2020-05-22 15:46:39 · 652 阅读 · 0 评论 -
Spark读取Kafka 高低阶API
1、KafkaUtils.createDstream 构造函数为KafkaUtils.createDstream(ssc, [zk], [consumer group id], [per-topic,partitions] ) 使用了receivers来接收数据,利用的是Kafka高层次的消费者api,对于所有的receivers接收到的数据将会保存在Sparkexecutors中,然后通过Spark Streaming启动job来处理这些数据,默认会丢失,可启用WAL日志,该日志存储在HDFS上...原创 2020-05-20 19:31:33 · 457 阅读 · 0 评论