最近看到一篇写大数据框架的文章,写的非常好,也根据自己的经验做一些总结吧。大数据框架的选型对刚接触分布式运算的人来说确实有点迷茫,希望这篇文章可以对大家有所帮助。
简介:
大数据是收集、整理、处理大量大规模数据集,并从中获得见解所需的非传统战略的技术统称,常用场景:推荐系统,根据用户行为进行相应推荐。资讯、商品等。
分类:
仅批处理框架 Apache Hadoop
仅流处理框架 Apache Storm、Apache Samza
混合框架 Apache Spark、Apache Flink
名称 | 特点 | 优势 | 局限 | 处理过程 |
Hadoop | 专用于批处理系统 | 新版Hadoop包含多个组件,通过配合使用可处理批数据(HDFS、YARN、MapReduce),另外磁盘空间通常是服务器上最丰富的资源,因此可以处理非常海量的数据。 | 这种方式严重依赖于持久化存储,需要多次进行读写操作,因此速度相对较慢 | 1.从HDFS文件系 |