大数据架构Hadoop、Spark和Storm 三者技术对比

最新推荐文章于 2023-09-26 16:28:00 发布

aa541505

最新推荐文章于 2023-09-26 16:28:00 发布

阅读量1k

点赞数 3

分类专栏：大数据 IT资讯互联网科技人工智能文章标签：大数据人工智能编程语言程序员 hadoop

本文链接：https://blog.csdn.net/aa541505/article/details/90320541

版权

从人工统计分析到电脑大型机再到今天的分布式计算平台，数据处理速度飞速提高的背后则是整体架构的不断演进。今天大数据架构最火热的莫过于Hadoop，Spark和Storm这三种，而Spark和Storm这两个后起之秀更是抢了不少Hadoop的风头，也让网上逐渐开始有一种声音说Hadoop的日子已经快到头了。但究竟这三者之间是什么关系，未来大数据架构究竟该走向何方呢?
短短几年时间，大数据这个词便已家喻户晓。但在大数据这个名词被命名之前，人类对数据的搜集与分析已有着悠久的历史。从人工统计分析到电脑/大型机再到今天的分布式计算平台，数据处理速度飞速提高的背后则是整体架构的不断演进。今天大数据架构最火热的莫过于Hadoop，Spark和Storm这三种，而Spark和Storm这两个后起之秀更是抢了不少Hadoop的风头，也让网上逐渐开始有一种声音说Hadoop的日子已经快到头了。但究竟这三者之间是什么关系，未来大数据架构究竟该走向何方呢?

分布式计算架构鼻祖Hadoop

所谓分布式计算过程就像蚂蚁搬家一样，将一个大型任务分割成很多部分，每一台电脑相当于一个小蚂蚁将其中一部分搬走。Hadoop作为分布式系统的基础架构，其重要性不言而喻。Hadoop的数据处理工作在硬盘层面，借助HDFS(分布式文件系统)，可以将架构下每一台电脑中的硬盘资源聚集起来，不论是存储计算还是调用都可以视为一块硬盘使用，就像以前电脑中的C盘，D盘，之后使用集群管理和调度软件YARN，相当于Windows，毕竟我们要进行编程首先需要一个操作系统，最后利用Map/Reduce计算框架相当于Virtual Studio，就可以在这上面进行计算编程。从而大幅降低了整体计算平台的硬件投入成本。而这也就是最基础的分布式计算架构。

流数据处理双雄Spark和Storm

所谓流数据处理其实不难