1.邱洋总结
- AWS的服务全部采用SOA架构可以需要时相互调用
- 关于大数据的实时流处理,AWS提供了传统方案和完全host方案
- 传统方案是EC2上面部署flume (采集)、kafka(数据转存)、storam(流处理)
- 完全host方案是Kinesis
- 使用Kinesis还是需要用户通过API来将手机、网站点击、IoT、传感器等各类数据源的数据接入
- 允许用户编写Kinesis的Worker来处理自定义的数据处理逻辑(扩展性)
- Kinesis处理之后的数据,AWS建议存储S3或redshift等存储中,后续使用
- Kinesis的典型用法是:前端数据源→kinesis流处理→S3保存临时数据→EMR数据处理→redshift做BI分析。整体使用CW来做运行监控,并且可以出发AutoScaling来弹性伸缩处理能力
- Kinesis实时数据流的应用场景
- 对于广告平台:用户在互联网上的行为,能实时的影响广告推送内容,在用户下一次刷新页面时,就提供给用户新广告
- 对于电商:用户的每一次收藏、点击、购买行为,都能被快速的归入他的个人模型中,立即修正商品推荐
- 对于社交网络:用户社交图谱变更和发言行为,也能快速反映在他的好友推荐、热门话题提醒上
2.概述
2.1.AWS基于云的完整大数据服务
- 采集:实时数据流采集处理(Kinesis)
- 保存:大规模存储
- DynonamoDB
- S3
- Glacier
- 处理:大集群并行计算
- EMR
- EC2
- Redshift–MPP数据库
- Data Pipeline–ETL工具