随着移动互联网和物联网(IoT)技术的飞速发展,各种移动设备、智能器件 、社交网络和在线游戏等每一秒钟都在产生着大量的半结构化和非结构化数据,其中蕴含的巨大的价值和机会仍有待于我们去发掘。
Hadoop平台已经存在十年多,针对于海量数据通过Map/Reduce算法进行批处理也早已飞入寻常百姓家,成为每一个大数据工程师的入门级装备,但是如何更好的让大数据技术产生价值,在大数据特性的3个V:Volume、Variety、Velocity中, Velocity是成功与否的关键。所以,如何实时挖掘数据的价值,成为大数据领域的焦点。对流式数据的实时分析,很多用户还正在寻找一个适合自己的架构平台。
三年来,AWS技术支持,一直在大数据业务上为国内客户提供了从业务分析、架构设计到平台搭建、性能调优和故障诊断等全方位的咨询和帮助。同时我们基于客户案例的分析和总结,也发现如下非常明显的趋势:
- 2013-2014年,客户问题主要集中在以Java、Python等开发语言为主的Hadoop应用实践和参数调优方向。
- 2014-2015年,主要问题向交互式应用Hive、Impala、Presto,工作流管理Oozie,以及HBase等各种Hadoop生态系统中的组件上转移,客户更加专注在实际业务上。
- 2015-2016年,Spark以其同时支持批处理、交互式、迭代以及实时流处理等特性成为客户案例和咨询中最热门的关键词,而将Spark应用在实时流处理上的案例又是其中最多的。
另一个明显的趋势就是随着客户对AWS大数据服务的熟悉,问题也越来越深入和复杂,通过技术支持不仅可以很快的避开其他AWS用户已经碰到的问题、还可以了解到目前最流行的架构,快速的搭建比肩Netflix、NASDAQ等著名公司的大数据平台