思维导图：Hadoop01

最新推荐文章于 2022-10-04 09:48:30 发布

章鱼哥TuNan&Z

最新推荐文章于 2022-10-04 09:48:30 发布

阅读量853

点赞数

分类专栏： # hadoop 文章标签： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43528451/article/details/114132134

版权

hadoop 专栏收录该内容

17 篇文章 2 订阅

订阅专栏

在这里插入图片描述

Hadoop01

1:大数据导论

1：什么是大数据

1：大数据是随着互联网的发展而产生的
2：大数据主要解决两个问题：
1：海量数据的存储文件 HDFS HBase Kudu
2: 海量数据的计算问题 MapReduce Spark

2: 常见的数据的计量单位

1Byte = 8bit 1K(千)= 1024Byte 1MB（兆)=1024K 1G(吉) = 1024M
1T(太)=1024G 1P(拍)=1024T 1E(艾)=1024P 1Z(泽)=1024E
1Y (尧)=1024Z 1B(布)=1024Y 1N(诺)=1024B 1D(刀)=1024N

3：大数据的特点

1：数据量大（TB，PB，EB）
2：数据多样化，为了利于分析，会将各种各样的数据汇总到一起
3：数据价值密度低，你需要有强的数据提纯能力
4：数据处理有时候需要时效性，一般指的是实时处理
5：数据要有一定的质量保证

4：分布式技术

1：分布式计算
- 将一批计算任务交给多个计算机来完成
2：分布式存储
- 将一批海量数据让多个计算机进行分散存储

2：Hadoop

1：Hadoop介绍

1：Hadoop是Appache旗下非常有名的开源项目，用户大数据处理
2：Hadoop定义
- 1：狭义上指的是Hadoop这款软件
  - HDFS
    - Hdoop分布式文件系统，用来解决海量数据的存储问题
  - MapReduce
    - Hadoop分布式计算。用来解决海量数据的计算问题
  - Yarn
    - Hadoop资源调度系统，用来解决分布式计算中的资源调度问题
- 2：广义上只的是Hadoop的生态圈框架
  - HDFS 分布式文件系统
    MapReduce 分布式运算程序开发框架
    ZooKeeper 分布式协调服务基础组件
    HIVE 基于HADOOP的分布式数据仓库，提供基于SQL的查询数据操作
    FLUME 日志数据采集框架
    oozie 工作流调度框架
    Sqoop 数据导入导出工具（比如用于mysql和HDFS之间）
    Impala 基于hive的实时sql查询分析
    azkaban 工作流调度框架
    kafka 消息队列
    redis 实时数据存储
    ES 、Spark 、Flink

2：Hadoop的发展历史

1：Hadoop之父-Doug Cutting
2：Hadoopo是基于谷歌发表的三篇论文
GFS---->HDFS
谷歌MapReduce ----->MapReduce
BigTable -------->HBase

3: Hadoop的特点

1：扩容能力
2: 成本低
3: 高效率
4: 可靠性高

4：Hadoop的版本

1.x
- 已经被淘汰
2.x
- 主流版本，加入yarn平台
3.x
- 加入了一些新特性，最新的版本

5：Hadoop的发行公司

1：Appache的开源社区版
- 版本更新快，兼容性差
2：Cloudera公司的CDH版
- 在Appache的Hadoop基础上加入了补丁，兼容性好

6：Hadoop的架构

HDFS的架构
- 主节点：NameNode
  - 集群当中的主节点，主要用于管理集群当中的各种数据
- SecondaryNameNode
  - 主要帮助NameNode进行元数据的辅助管理
- 从节点：DataNode
  - 真实存放数据的地方
Yarn的架构
- 主节点：ResourceManager
  - 接收用户的计算请求任务，并负责集群的资源分配
- 从节点：NodeManager
  - 执行具体的计算任务
MapReduce
- 注意：MapReduce只是一段框架代码，这个代码需要从HDFS读取源数据，并使用Yarn提供的内存资源进行处理，并把执行后的结果再存储到HDFS上

7：错误排查

Zookeeper
- 查询Zookeeper的启动日志，当执行zkServer.sh命令时，会在启动的目录生成一个日志文件:zookeeper.out,通过查看这个文件来排查错误

8：Hadoop目录介绍

bin
- 存放一些官方的高级管理命令
sbin
- 存放用户操作管理命令
etc/haoop
- 存放Hadoop所有的配置文件
share
- Hadoop官方提供的测试案例

9：Hadoop的启动

启动
- start-all .sh
关闭
- stop-all.sh
启动历史任务
- mr-jobhistory-daemon.sh start historyserver
页面访问
- namenode
  - http://192.168.88.161:50070/
- yarn
  - http://192.168.88.161:8088/
- 历史任务
  - http://192.168.88.161:19888/jobhistory

10：Hadoop的集群测试

1：文件上传到HDFS
- hadoop fs -put /root/anaconda-ks.cfg /
2: 使用MapReduce 计算圆周率
- hadoop jar /export/server/hadoop-2.7.5/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.5.jar pi 2 100

XMind: ZEN - Trial Version

章鱼哥TuNan&Z

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
思维导图：Hadoop01

Hadoop011:大数据导论1：什么是大数据1：大数据是随着互联网的发展而产生的2：大数据主要解决两个问题：1：海量数据的存储文件 HDFS HBase Kudu2: 海量数据的计算问题 MapReduce Spark2: 常见的数据的计量单位1Byte = 8bit 1K(千)= 1024Byte 1MB（兆)=1024K 1G(吉) = 1024M1T(太)=1024G 1P(拍)=1024T 1E(艾)=1024P 1Z(泽).
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

章鱼哥TuNan&Z 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。