大数据随笔（一）：大数据基本概念

最新推荐文章于 2024-07-25 21:52:39 发布

if_want

最新推荐文章于 2024-07-25 21:52:39 发布

阅读量154

点赞数

分类专栏：大数据文章标签： hadoop

本文链接：https://blog.csdn.net/qq_34965116/article/details/104639459

版权

7 篇文章 0 订阅

订阅专栏

一、大数据的计算模式：

不同的计算模式需要使用不同的产品

批处理模式：一堆数据一起做批量处理，不能满足实时性要求。
如MapReduce，Spark（实时性比MapReduce好，可以做迭代计算，MapReduce不能）
流计算：针对流数据（日志流、用户点击流）的实时计算，需要实时处理。只能用流计算框架做。
流计算代表产品：S4+Storm+Flume
图计算：如社交网络数据，地理信息数据等。MapReduce也能处理，但效率不高。
代表软件：Google Pregel
查询分析计算：交互式查询，要求实时性高
代表产品：Google Dremel、Hive、Cassandra、Impala

HDFS新技术（原来可扩展性不好）：
- NN Federation，多个名称节点，分区管理（不能解决单点失效问题，彼此联盟关系，非备份关系，需要为每个名称节点部署备份节点）
- HA（高可用性），热备份的NameNode，防止单点失效。
YARN负责资源调度管理
MapReduce1.0既是计算框架，也是资源调度管理框架，MapReduce2.0是纯粹的计算框架。YARN框架可以支持MapReduce、Storm、Spark等。

在这里插入图片描述

参考资料：https://blog.csdn.net/zjlamp/article/details/82778617

关注

专栏目录