实时计算实践（spark streaming+kafka+hdfs）

最新推荐文章于 2023-02-07 14:07:09 发布

Running_you

最新推荐文章于 2023-02-07 14:07:09 发布

阅读量8.3k

点赞数

分类专栏： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_29508201/article/details/52588629

版权

本文介绍了作者在大数据处理领域的实践经验，选择了Spark Streaming作为实时计算引擎，Kafka作为数据源，HDFS作为数据去向。在项目开发环境中使用Scala 2.10.4和Maven进行管理，讨论了为何放弃Eclipse插件而选择Scala IDE和Maven。通过Spark Streaming的高级API实现从Kafka到HDFS的数据流处理。

摘要由CSDN通过智能技术生成

一直在研究大数据处理方向的各种技术和工具，但没有真正用于实践中，恰好目前风控措施转向，需要实施“在线+离线”的双线防控措施，遂在调研查阅相关文档后，决定从零开始构造（数据挖掘转工程开发，思维转变是关键），这里面涉及的几个阶段慢慢说来：

项目开发环境选择（scala2.10.4 IDE +maven3.3）
最开始的选择是直接在eclipse环境上安装scala的IDE插件，但实践证明此种方式很不稳定，受限于网络的限制基本没能成功，索性直接利用scala提供的IDE开发环境，这视为迈出第一步，虽然IDE提供了构建scala project的模板，但是后期证明没有合适的版本管理工具，很难在包依赖及部署上做到得心应手，虽然网上普遍推荐SBT在该scala项目管理上的作用，但是有过java开发经验的还是首推maven工具，为编译打包提供极大的方便，同时实现在windows环境下编译执行spark代码，不过里面涉及很多坑后面再术。
实际计算平台（spark 1.5.2）
网上关于storm与spark ，谁在流式计算方式更具有优势的讨论甚多，这里不做比较，本人结合已有的平台环境加开发工具选择了 spark streaming作为实时计算的计算引擎，另外一个原因在于spark在于机器学习支撑上的强有力地位，方便后日扩展，此外spark streaming也提供了针对各种数据源的高级API，方便从不同数据源中获取DStearm，同时支持写入各种存储介质中。
数据源（kafka）
kafka作为一个分布式发布-订阅消息系统࿰

最低0.47元/天解锁文章

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。