Hadoop-Apache Hadoop大数据解决方案的整体介绍

码出人生的意义

于 2022-06-16 23:30:04 发布

阅读量658

点赞数 1

分类专栏： Hadoop系列文章标签： big data hadoop apache hdfs 大数据

本文链接：https://blog.csdn.net/weixin_43262828/article/details/125321233

版权

1 篇文章 1 订阅

订阅专栏

一大数据价值和当前主要应用

大数据的价值
当前全球数据的生产速度急剧加快，海量数据的存储以及计算问题通过传统的解决方案已经无法应对处理，为此急需有一套针对性的解决方案，Hadoop应运而生。
当前大数据的行业应用
大数据解决方案就是通过挖掘海量数据的价值，分析数据之间的联系，并最终为企业生产、经营决策等赋能。

1）基于海量生产数据/日志数据，提供历史清单类数据快速查询服务
2）汇聚各应用生产数据/日志数据，建立数仓，进行数据清洗、分析、提供可视化报表服务
3）基于用户画像（行为）数据，建立数仓，结合标签定义，进行数据清洗、加工，为客户营销活动提供服务

狭义上讲，Haoop是一个架构平台，包括hdfs、mapreduce和yarn三部分，而广义上讲，Hadoop是一个大数据技术生态圈，还包括hive、hbase、flume、sqoop、kafka、flink等架构或组件，后续我们会针对各个组件一一进行交流分享。

1. 优点

2. 不适合场景/缺点

不适合低延时访问
不喜欢小文件
不支持多用户写入
不支持数据任意修改

注：以上主要是针对Hadoop核心存储架构hdfs来讲，原因后续剖析说明。

1）Apache Hadoop：开源，更新快，但是维护升级相对困难（各组件兼容性导致）
2）CDH：基于开源Hadoop，解决了兼容性，但是收费（企业推荐）
3）HDP：基于开源Hadoop，免费，且提供了界面维护Ambri（已经被CDH收购，前景不明朗）

HDFS解决海量数据的存储问题，主要包含如下三种角色：

NameNode（nn）：存储文件的元数据，比如文件名、文件目录结构、文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等。
SecondaryNameNode（2nn）：辅助NameNode管理HDFS元数据。
DataNode（dn）：在本地文件系统存储文件块数据。
备注：后续会继续分享原理细节；