Spark的流处理,不光是分批还是进行结构化,都能很好的处理来自kafka或socket的数据。接下来说说spark与kafka整合的步骤,以免发生各种各样的错误(原本大数据的生态多,spark的版本更新和功能迭代快,为了少出现错误,最好遵循原版说明)
1.首先你要确认好你的spark版本和kafka的版本,因为不同的版本有可能导入的包不一样和程序写法不一样
2.开发时pom.xml导入相应的依赖
由于我之前忘了导入这个包
spark-sql-kafka-0-10_${scala.binary.version}
出现各种错误,报的错误根本都是错误,这种最坑爹了的。所以大家一定要小心点儿
3.编写相对于版本的程序,做好前2步基本不会出现问题
(程序完美运行)
强调一下,如果出现连接问题或者是偏移。建议更改kafka的conf下的server.properties文件
更改为:最后建议删除zookeeper中相应的topic,重现创建
offsets.topic.replication.factor=3