Hadoop学习笔记
- Hadoop概念
1.思想之源
- HDFS分布式存储
2.1 HDFS概念
2.2 HDFS优点
-
- HDFS缺点
-
- HDFS架构
-
- HDFS存储单元(block)
-
- HDFS设计思想
-
- HDFS核心概念
1.NameNode概念
2.SecondaryNameNode概念
3.SNN合并流程
4.DataNode概念
5.Block副本放置策略
6.HDFS写流程
7.HDFS读写权限
8.安全模式
2.8下载Hadoop
官方文档
2.9搭建完全分布式HDFS
前提:安装jdk,下载hodoop
1.计划服务器搭建(共四台)
2.计划搭建流程
3.配置yum源(可选)
4.安装ntpdate时间同步
四台都要执行安装
5.设置ntpdate服务器
后面url可在网上搜到
(关闭防火墙)
6.设置免密登录
查看私钥文件和公钥文件
让node2-node4都进行免密登录
node3,node4也是一样的操作
7.安装jdk
上传jdk和hadoop
把安装版传到node2,node3,node4
执行安装
修改etc/profile文件,配置环境变量
注意:四台都需要有该环境
8.安装Hadoop
-c /home
修改etc/profile
刷新profile文件
修改hadoop里面的etc
删除文档
同步node
scp –r hadoop-2.5.1/ node3:/home
9.格式化节点
10.启动HDFS
访问Hadoop,node1需要在host中配置,直接加端口访问即可:50070
11.查看节点
12.查看是否有DataNode
显示这个环境搭建成功!
3.0 HDFS的shell命令
mkdir
创建目录
ls
查看当前路径下的hdfs文件目录
put
上传文件
get
下载文件
rm –f
删除文件
3.1 安装Eclipse插件
放到该目录下
重启eclipse,暂不支持版本高的eclipse
3.2 eclipse操作
创建连接
修改hosts
改用户名
3.3 项目的创建
导入jar包
还有commons
3.4 eclipse代码操作
粘贴配置文件
- 创建目录
- 上传文件
- 查看文件
- 上传文件(音频、文档)
- 下载文件
3.5 HDFS 2.x Federation
1.概念
Federation中文:联邦
具体图示:
2.搭建环境
图片上配置了两组
- HA
-
HDFS-HA
-
部署ha流程
-
安装配置zookeeper
- 配置hdfs-site.xml
- 配置http请求地址
- 配置journal集群
- 配置故障器
- 配置免密钥
- 修改core-site.xml
-
部署ha
-
具体流程图
- 做免密钥
全部执行下该命令
测试
-
修改配置文件
-
删除masters
其他几台也一样
- 删除hadoop
- 修改hdfs-site.xml
- 修改core-site.xml
-
安装zookeeper
-
解压zookeeper
- 修改profile文件
- 修改zoo.cfg
- 创建zookeeper目录
- 创建myid文件
(在node1)写个1
- 同步
Copy目录,拷贝到node2,3
- 创建myid
在node2,node3中的opt文件中创建zookeeper,里面创建myid文件,写上2和3
- 启动zookeeper
- 配置hdfs-site.xml
- 配置core-site.xml
- 同步配置文件
- 启动journalnode
在3和4也启动下
在四里面也配置下前两个
-
MapReduce分布式计算
-
概念
例子—统计文本文件
- MapReduce的Split大小
- Mapper
- Reducer
- Shuffler