初学Hadoop心得

最新推荐文章于 2024-09-18 10:39:18 发布

Phil_X

最新推荐文章于 2024-09-18 10:39:18 发布

阅读量4.9k

点赞数 6

分类专栏： Hadoop 文章标签： Hadoop

本文链接：https://blog.csdn.net/Phil_X/article/details/89298569

版权

Hadoop 专栏收录该内容

0 篇文章 0 订阅

订阅专栏

Hadoop认识总结

对Hadoop的基本认识

对Hadoop的基本认识

Hadoop是一个分布式系统基础技术框架，由Apache基金会所开发。利用hadoop,软件开发用户可以在不了解分布式底层细节的情况下，开发分布式程序，从而达到充分利用集群的威力高速运算和存储的目的。
Hadoop是根据google的三大论文作为基础而研发的，google 的三大论文分别是: MapReduce、 GFS和BigTable。因此，hadoop 也因此被称为是:
google技术的山寨版。不过这种“山寨版”却成了当下大数据处理技术的国际标准(因为它是世界上唯一个做得相对完善而又开源的框架)。
Hadoop框架中最核心的设计就是: MapReduce 和HDFS。MapReduce 的思想是由Google的一篇论文所提及而被广为流传的，简单的一句话解释
MapReduce就是“ 任务的分解与结果的汇总”。HDFS是Hadoop分布式文件系统(Hadoop Distributed File System) 的缩写，为分布式计算存储提供了底层支持。
MapReduce从它名字上来看就大致可以看出个缘由，两个动词Map和Reduce，“Map (展开)”就是将一个任务分解成为多个任务，“Reduce” 就是将分解后多任务处理的结果汇总起来，得出最后的分析结果。这不是什么新思想，其实它的本质就是一种“分治法”的思想，把一个巨大的任务分割成许许多多的小任务单元，最后再将每个小任务单元的结果汇总，并求得最终结果。在分布式系统中，机器集群就可以看作硬件资源池，将并行的任务拆分，然后交由每一个空闲机器资源去处理，能够极大地提高计算效率，同时这种资源无关性，对于计算集群的扩展无疑提供了最好的设计保证。任务分解处理以后，那就需要将处理以后的结果再汇总起来，这就是Reduce要做的工作。
总之，用户利用Hadoop可以轻松的组织计算机资源，搭建自己的分布式计算平台，充分利用集群的计算和存储能力，完成海量数据的处理。

Hadoop安装过程

搭建Linux环境：
1)在Vmware 虚拟机中安装rhel-server-6.3-i386-dvd.iso
2）设置Vmware虚拟机的网络方式为bridge（桥接）

Hadoop伪分布模式安装步骤：
1)关闭防火墙：
查看Linux系统防火墙状态：
命令：Service iptables status
关闭防火墙
命令：service iptables stop
关闭防火墙的自动运行
命令：chkconfig iptables off
2)修改IP:
设置Linux系统静态IP地址
因为虚拟机网络采用bridge桥接方式，客户机和宿主机在同一个局域网中，因此按如下方式设置客户操作系统的IP地址：
客户操作系统的IP地址和主操作系统在同一网段
客户操作系统的网关和主操作系统一致
客户操作系统的DNS和主操作系统一致
设置完毕执行命令：service network restart重启Linux系统网络。
验证：使用ifconfig命令查看设置是否成功
3)修改HOSTNAME:
修改当前会话中的主机名(暂时性)：
命令：hostname hadoop
修改配置文件中的主机名（永久性）：
vi /etc/sysconfig/network
HOSTNAME=hadoop
4)设置ssh自动登录:
执行以下命令产生密钥，位于~/.ssh目录
ssh-keygen –t rsa
执行以下拷贝命令，创建密钥文件authorized_keys
cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys
验证：
执行命令：ssh localhost 登录主机
执行命令：exit 退出连接
5)安装jdk:
使用winscp将jdk安装文件从windows拷贝到Linux的/usr/local目录下
给jdk文件赋予用户的可执行权限：
chmod u+x jdk文件
解压缩jdk文件
./jdk文件
为以后使用方便，将解压后的文件夹重命名为jdk
mv 旧文件名 jdk
设置环境变量：
vi /etc/profile #编辑此文件，增加2行内容
export JAVA_HOME=/usr/local/jdk
export PATH=.:$JAVA_HOME/bin:$PATH
执行以下命令，使设置立即生效
source /etc/profile
验证：
java -version
6)安装hadoop
1.使用winscp将hadoop安装包拷贝/usr/local目录下，然后进入此目录解压缩hadoop安装文件
tar zxvf hadoop-2.6.2.tar.gz
2.设置环境变量：
vi /etc/profile #编辑此文件，增加2行内容
export HADOOP_HOME=/usr/local/hadoop-2.6.2
export PATH=.:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
执行以下命令，使设置立即生效
source /etc/profile
3.修改hadoop的配置文件：配置文件路径：/usr/local/hadoop-2.6.2/etc/hadoop/ 目录下
修改hadoop-env.sh 文件，配置jdk的路径
export JAVA_HOME=/usr/lib/jvm/jdk…(jdk实际安装路径)
修改yarn-env.sh 文件，配置jdk的路径
export JAVA_HOME=/usr/lib/jvm/jdk…(jdk实际安装路径)
修改 core-site.xml，添加以下内容，配置HDFS的地址和端口号
<configuration>
<property>
<name>fs.defaultFS
<value>hdfs://hadoop0:9000
</property>
<property>
<name>hadoop.tmp.dir
<value>/usr/local/hadoop-2.6.2/tmp
</property>
</configuration>
4.修改hadoop的配置文件：
修改 hdfs-site.xml文件，修改block副本数：replication
<configuration>
<property>
<name>dfs.replication
<value>1
</property>
</configuration>
修改mapred-site.xml，配置使用yarn框架
先创建mapred-site.xml：
执行命令：cp mapred-site.xml.template mapred-site.xml
在进行下面的配置：
<configuration>
<property>
<name>mapreduce.framework.name
<value>yarn
</property>
</configuration>
修改yarn-site.xml，配置yarn属性及端口
<configuration>
<property>
<name>yarn.nodemanager.aux-services
<value>mapreduce_shuffle
</property>
<property>
<name>yarn.resourcemanager.address
<value>hadoop0:9001
</property>

Hadoop的配置及启动
1)格式化hdfs：
hadoop namenode –format
启动/关闭所有进程：
start-all.sh stop-all.sh
启动/关闭hdfs：
start-dfs.sh stop-dfs.sh
启动/关闭yarn
start-yarn.sh stop-yarn.sh
2)验证hadoop安装是否成功：
1.执行命令jps查看java进程，是否启动了以下5个进程：
NameNode，SecondaryNamenode，DataNode、ResourceManager、NodeManager
以上5个进程运行在主节点的有：
NameNode，SecondaryNamenode ，ResourceManager
运行在从节点的有：
DataNode、NodeManager
2.通过浏览器访问hadoop
在浏览器分别输入以下地址进行访问：
hadoop(主机名):50070
Hadoop(主机名):50030
至此安装配置完成！

分布式文件系统HDFS命令

HDFS操作命令帮助：
所有的hdfs命令都是以hadoop fs开头
HDFS的shell命令在线帮助
1.hadoop fs
使用此命令可以查看HDFS的所有常用命令语法
2.hadoop fs help
使用此命令可以查看HDFS的所有常用命令语法
3. hadoop fs –help 命令
查看某个命令的具体功能

HDFS的fs命令
-help [cmd] //显示命令的帮助信息
-ls( r) <path> //显示当前目录下所有文件
-du(s) <path> //显示目录中所有文件大小
-count[-q] <path> //显示目录中文件数量
-mv <src> <dst> //移动多个文件到目标目录
-cp <src> <dst> //复制多个文件到目标目录
-rm(r ) //删除文件(夹)
-put <localsrc> <dst> //本地文件复制到hdfs
-copyFromLocal //同put
-moveFromLocal //从本地文件移动到hdfs
-get [-ignoreCrc] <src> <localdst> //复制文件到本地，可以忽略crc校验
-getmerge <src> <localdst> //将源目录中的所有文件排序合并到一个文件中
-cat <src> //在终端显示文件内容
-text <src> //在终端显示文件内容
-copyToLocal [-ignoreCrc] <src> <localdst> //复制到本地
-moveToLocal <src> <localdst>
-mkdir <path> //创建文件夹
-touchz <path> //创建一个空文件

课堂笔记

第一章Hadoop最初的两个核心项目
Hdfs 分布式文件系统（强调一下是一个文件系统）
守护进程：namenode（主节点，名称节点，只有一个） datanode（从节点，数据节点，可能有若干个）
Mapreduce 并行计算框架
守护进程：jobtracker（主节点，只有一个） tasktracker（从节点，可能有若干个）（hadoop1.x的内容，后面会进行更新）

特点：可靠性、低成本、高效率、扩容能力

第二章 hadoop安装配置（上）
第一节基础环境配置
前置（可选）普通用户获取部分管理员权限
操作步骤：
登陆虚拟控制台ctrl+alt+f2
登录管理员用户和密码
打开sudoers文件 $vim /etc/sudoers
找到第98行 root ALL=(ALL) ALL
将其复制，并更改为ryan（你的用户名） ALL=(ALL) ALL
保存退出：按esc，输入：wq
到这一步，ryan用户就获取了所有的管理员权限，执行管理员命令时，需要在前面加上sudo命令。
1.1基础网络配置
网络联通配置
1）打开网络配置文件 sudo vim /etc/sysconfig/network-scripts/ifcfg-eno176……
输入密码
在此文件中更改以下内容
BOOTPROTO=static
ONBOOT=yes
在此文件中添加以下内容
IPADDR=192.168.237.10
NETMASK=255.255.255.0
GATEWAY=192.168.237.2
DNS1=8.8.8.8
2）重启网络
service network restart
3）测试
ping 8.8.8.8

第二章 hadoop安装配置（下）
主机名与IP地址对应关系操作
1.设置主机名
sudo vim /etc/hostname
删除原有内容，添加自己的主机名
2. 设置主机名与IP地址的对应关系
sudo vim /etc/hosts
此文件在最后添加对应关系如下
IP地址1 主机名1
IP地址2 主机名2
。。。
3. 关闭防火墙
systemctl stop firewalld
设置防火墙开机不启动
systemctl start firewalld
设置防火墙打开
systemctl status firewalld
查看防火墙

Jdk的安装
1.奖jdk安装文件复制到虚拟机中去，在自己的用户目录下新建一个java目录。将安装文件移动到该目录下解压。
解压命令 tar zxvf 压缩包名
解压完成，会在当前目录下出现一个新的目录文件。将此目录改名为jdk目录（使用mv命令，作用是简化目录名）
打开用户目录下的.bashrc文件
Vim ~/.bashrc
在此文件的任意位置添加以下内容
JAVA_HOME=/home/ryan/java/jdk
PATH=${PATH}: ${JAVA_HOME}/bin

添加完成后保存退出
让此文件立即生效
Source ~/.bashrc