大数据项目实时数据采集流程步骤分析

1.数据来源:比如,网站或者app。非常重要的一点,就是埋点。也就是说,埋点,在网站/app的哪个页面的哪些操作发生时,前端的代码(网站,JavaScript;app,android/IOS),就通过网络请求,(Ajax;socket),向后端的服务器发送指定格式的日志数据。

2.Nginx,后台Web服务器(Tomcat、Jetty),后台系统(J2EE、PHP)。到这一步为止,其实还是可以跟我们之前的离线日志收集流程一样。走后面的通过一个日志传输工具,给放入指定的文件夹。
flume,监控指定的文件夹

3.Kafka,我们的日志数据,怎么处理,都是由你自己决定。可以每天收集一份,放到flume,转移到HDFS里面,清洗后放入Hive,建立离线的数据仓库。

也可以每收集1分钟的数据,或者每收集一点数据,就放入文件,然后转移到flume中去,或者直接通过API定制,直接把一条一条的log打入flume。可以配置flume,将数据写入Kafka

4.实时数据,通常都是从分布式消息队列集群中读取的,比如Kafka;实时数据,实时的log,实时的写入到消息队列中,比如Kafka;然后呢,再由我们后端的实时数据处理程序(Storm、Spark Streaming),实时从Kafka中读取数据,log日志。然后进行实时的计算和处理。

5.实时的,主动从Kafka中拉取数据

6.大数据实时计算系统,比如说用Storm、Spark Streaming开发的,可以实时的从Kafka中拉取数据,然后对实时的数据进行处理和计算,这里可以封装大量复杂的业务逻辑,甚至调用复杂的机器学习、数据挖掘、智能推荐的算法,然后实现实时的车辆调度、实时推荐。

  • 8
    点赞
  • 48
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值