大数据实时流处理之AWS最佳实践

本文探讨了AWS大数据实时流处理的趋势,强调了Spark在实时流处理中的重要性。通过Kinesis Streams、生产者和消费者应用的详细阐述,介绍了AWS实时大数据分析的参考架构,并提供了相关最佳实践,包括Kinesis Streams的配置要点、生产者应用的选择和消费者应用的资源分配建议。同时,提到了Spark Streaming的工作原理和注意事项,以及AWS Kinesis Analytics服务的预览,展示了一个简化服务器管理的Lambda架构方案。
摘要由CSDN通过智能技术生成

随着移动互联网和物联网(IoT)技术的飞速发展,各种移动设备、智能器件 、社交网络和在线游戏等每一秒钟都在产生着大量的半结构化和非结构化数据,其中蕴含的巨大的价值和机会仍有待于我们去发掘。

Hadoop平台已经存在十年多,针对于海量数据通过Map/Reduce算法进行批处理也早已飞入寻常百姓家,成为每一个大数据工程师的入门级装备,但是如何更好的让大数据技术产生价值,在大数据特性的3个V:Volume、Variety、Velocity中, Velocity是成功与否的关键。所以,如何实时挖掘数据的价值,成为大数据领域的焦点。对流式数据的实时分析,很多用户还正在寻找一个适合自己的架构平台。

三年来,AWS技术支持,一直在大数据业务上为国内客户提供了从业务分析、架构设计到平台搭建、性能调优和故障诊断等全方位的咨询和帮助。同时我们基于客户案例的分析和总结,也发现如下非常明显的趋势:

  • 2013-2014年,客户问题主要集中在以Java、Python等开发语言为主的Hadoop应用实践和参数调优方向。
  • 2014-2015年,主要问题向交互式应用Hive、Impala、Presto,工作流管理Oozie,以及HBase等各种Hadoop生态系统中的组件上转移,客户更加专注在实际业务上。
  • 2015-2016年,Spark以其同时支持批处理、交互式、迭代以及实时流处理等特性成为客户案例和咨询中最热门的关键词,而将Spark应用在实时流处理上的案例又是其中最多的。

另一个明显的趋势就是随着客户对AWS大数据服务的熟悉,问题也越来越深入和复杂,通过技术支持不仅可以很快的避开其他AWS用户已经碰到的问题、还可以了解到目前最流行的架构,快速的搭建比肩Netflix、NASDAQ等著名公司的大数据平台

  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值