剖析大数据平台的数据分析-CSDN博客

　　无论是采集数据，还是存储数据，都不是大数据平台的最终目标。失去数据处理环节，即使珍贵如金矿一般的数据也不过是一堆废铁而已。数据处理是大数据产业的核心路径，然后再加上最后一公里的数据可视化，整个链条就算彻底走通了。

　　数据处理的分类

　　我们可以从业务、技术与编程模型三个不同的视角对数据处理进行归类：

　　业务角度的分类与具体的业务场景有关，但最终会制约技术的选型，尤其是数据存储的选型。例如，针对查询检索中的全文本搜索，ElasticSearch会是最佳的选择，而针对统计分析，则因为统计分析涉及到的运算，可能都是针对一列数据，例如针对销量进行求和运算，就是针对销量这一整列的数据，此时，选择列式存储结构可能更加适宜。

　　在技术角度的分类中，严格地讲，SQL方式并不能分为单独的一类，它其实可以看做是对API的封装，通过SQL这种DSL来包装具体的处理技术，从而降低数据处理脚本的迁移成本。毕竟，多数企业内部的数据处理系统，在进入大数据时代之前，大多以SQL形式来访问存储的数据。大体上，SQL是针对MapReduce的包装，例如Hive、Impala或者Spark SQL。

　　Streaming流处理可以实时地接收由上游源源不断传来的数据，然后以某个细小的时间窗口为单位对这个过程中的数据进行处理。消费的上游数据可以是通过网络传递过来的字节流、从HDFS读取的数据流，又或者是消息队列传来的消息流。通常，它对应的就是编程模型中的实时编程模型。

　　机器学习与深度学习都属于深度分析的范畴。随着Google的AlphaGo以及TensorFlow框架的开源，深度学习变成了一门显学。

　　机器学习与常见的数据分析稍有不同，通常需要多个阶段经历多次迭代才能得到满意的结果。

　　针对存储的数据，需要采集数据样本并进行特征提取，然后对样本数据进行训练，并得到数据模型。倘若该模型经过测试是满足需求的，则可以运用到数据分析场景中，否则需要调整算法与模型，再进行下一次的迭代。

　　编程模型中的离线编程模型以Hadoop的MapReduce为代表，内存编程模型则以Spark为代表，实时编程模型则主要指的是流处理，当然也可能采用Lambda架构，在Batch Layer(即离线编程模型)与Speed Layer(实时编程模型)之间建立Serving Layer，利用空闲时间与空闲资源，又或者在写入数据的同时，对离线编程模型要处理的大数据进行预先计算(聚合)，从而形成一种融合的视图存储在数据库中(如HBase)，以便于快速查询或计算。

　　剖析大数据平台的数据分析 .中琛魔方平台表示大数据平台是一个整体的生态系统，内容涵盖非常丰富，涉及到大数据处理过程的诸多技术。在这些技术中，除了一些最基础的平台框架之外，针对不同的需求场景，也有不同的技术选择。这其中，显然有共性与差异性的特征。若从整个开发生命周期的角度看，无论是需求、架构，还是开发、测试到最后的部署与运维，各种技术都会牵扯其中，不同的角色关注点自然也有不同。

　　中景元物联官网 www.zjyiot.com

来自 “ ITPUB博客 ” ，链接：http://blog.itpub.net/69936596/viewspace-2653779/，如需转载，请注明出处，否则将追究法律责任。

转载于:http://blog.itpub.net/69936596/viewspace-2653779/