Hadoop01
1:大数据导论
1:什么是大数据
- 1:大数据是随着互联网的发展而产生的
2:大数据主要解决两个问题:
1:海量数据的存储文件 HDFS HBase Kudu
2: 海量数据的计算问题 MapReduce Spark
2: 常见的数据的计量单位
- 1Byte = 8bit 1K(千)= 1024Byte 1MB(兆)=1024K 1G(吉) = 1024M
1T(太)=1024G 1P(拍)=1024T 1E(艾)=1024P 1Z(泽)=1024E
1Y (尧)=1024Z 1B(布)=1024Y 1N(诺)=1024B 1D(刀)=1024N
3:大数据的特点
- 1:数据量大 (TB,PB,EB)
- 2:数据多样化,为了利于分析,会将各种各样的数据汇总到一起
- 3:数据价值密度低,你需要有强的数据提纯能力
- 4:数据处理有时候需要时效性,一般指的是实时处理
- 5:数据要有一定的质量保证
4:分布式技术
-
1:分布式计算
- 将一批计算任务交给多个计算机来完成
-
2:分布式存储
- 将一批海量数据让多个计算机进行分散存储
2:Hadoop
1:Hadoop介绍
-
1:Hadoop是Appache旗下非常有名的开源项目,用户大数据处理
-
2:Hadoop定义
-
1:狭义上指的是Hadoop这款软件
-
HDFS
- Hdoop分布式文件系统,用来解决海量数据的存储问题
-
MapReduce
- Hadoop分布式计算。用来解决海量数据的计算问题
-
Yarn
- Hadoop资源调度系统,用来解决分布式计算中的资源调度问题
-
-
2:广义上只的是Hadoop的生态圈框架
- HDFS 分布式文件系统
MapReduce 分布式运算程序开发框架
ZooKeeper 分布式协调服务基础组件
HIVE 基于HADOOP的分布式数据仓库,提供基于SQL的查询数据操作
FLUME 日志数据采集框架
oozie 工作流调度框架
Sqoop 数据导入导出工具(比如用于mysql和HDFS之间)
Impala 基于hive的实时sql查询分析
azkaban 工作流调度框架
kafka 消息队列
redis 实时数据存储
ES 、Spark 、Flink
- HDFS 分布式文件系统
-
2:Hadoop的发展历史
- 1:Hadoop之父-Doug Cutting
2:Hadoopo是基于谷歌发表的三篇论文
GFS---->HDFS
谷歌MapReduce ----->MapReduce
BigTable -------->HBase
3: Hadoop的特点
- 1:扩容能力
2: 成本低
3: 高效率
4: 可靠性高
4:Hadoop的版本
-
1.x
- 已经被淘汰
-
2.x
- 主流版本,加入yarn平台
-
3.x
- 加入了一些新特性,最新的版本
5:Hadoop的发行公司
-
1:Appache的开源社区版
- 版本更新快,兼容性差
-
2:Cloudera公司的CDH版
- 在Appache的Hadoop基础上加入了补丁,兼容性好
6:Hadoop的架构
-
HDFS的架构
-
主节点:NameNode
- 集群当中的主节点,主要用于管理集群当中的各种数据
-
SecondaryNameNode
- 主要帮助NameNode进行元数据的辅助管理
-
从节点:DataNode
- 真实存放数据的地方
-
-
Yarn的架构
-
主节点 :ResourceManager
- 接收用户的计算请求任务,并负责集群的资源分配
-
从节点 :NodeManager
- 执行具体的计算任务
-
-
MapReduce
- 注意:MapReduce只是一段框架代码,这个代码需要从HDFS读取源数据,并使用Yarn提供的内存资源进行处理,并把执行后的结果再存储到HDFS上
7:错误排查
-
Zookeeper
- 查询Zookeeper的启动日志,当执行zkServer.sh命令时,会在启动的目录生成一个日志文件:zookeeper.out,通过查看这个文件来排查错误
8:Hadoop目录介绍
-
bin
- 存放一些官方的高级管理命令
-
sbin
- 存放用户操作管理命令
-
etc/haoop
- 存放Hadoop所有的配置文件
-
share
- Hadoop官方提供的测试案例
9:Hadoop的启动
-
启动
- start-all .sh
-
关闭
- stop-all.sh
-
启动历史任务
- mr-jobhistory-daemon.sh start historyserver
-
页面访问
-
namenode
- http://192.168.88.161:50070/
-
yarn
- http://192.168.88.161:8088/
-
历史任务
- http://192.168.88.161:19888/jobhistory
-
10:Hadoop的集群测试
-
1:文件上传到HDFS
- hadoop fs -put /root/anaconda-ks.cfg /
-
2: 使用MapReduce 计算圆周率
- hadoop jar /export/server/hadoop-2.7.5/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.5.jar pi 2 100
XMind: ZEN - Trial Version