初学Hadoop心得

对Hadoop的基本认识

Hadoop是一个分布式系统基础技术框架,由Apache基金会所开发。利用hadoop,软件开发用户可以在不了解分布式底层细节的情况下,开发分布式程序,从而达到充分利用集群的威力高速运算和存储的目的。
Hadoop是根据google的三大论文作为基础而研发的,google 的三大论文分别是: MapReduce、 GFS和BigTable。因此,hadoop 也因此被称为是:
google技术的山寨版。不过这种“山寨版”却成了当下大数据处理技术的国际标准(因为它是世界上唯一个做得相对完善而又开源的框架)。
Hadoop框架中最核心的设计就是: MapReduce 和HDFS。MapReduce 的思想是由Google的一篇论文所提及而被广为流传的,简单的一句话解释
MapReduce就是“ 任务的分解与结果的汇总”。HDFS是Hadoop分布式文件系统(Hadoop Distributed File System) 的缩写,为分布式计算存储提供了底层支持。
MapReduce从它名字上来看就大致可以看出个缘由,两个动词Map和Reduce,“Map (展开)”就是将一个任务 分解成为多个任务,“Reduce” 就是将分解后多任务处理的结果汇总起来,得出最后的分析结果。这不是什么新思想,其实它的本质就是一种“分治法”的思想,把一个巨大的任务分割成许许多多的小任务单元,最后再将每个小任务单元的结果汇总,并求得最终结果。在分布式系统中,机器集群就可以看作硬件资源池,将并行的任务拆分,然后交由每一个空闲机器资源去处理,能够极大地提高计算效率,同时这种资源无关性,对于计算集群的扩展无疑提供了最好的设计保证。任务分解处理以后,那就需要将处理以后的结果再汇总起来,这就是Reduce要做的工作。
总之,用户利用Hadoop可以轻松的组织计算机资源,搭建自己的分布式计算平台,充分利用集群的计算和存储能力,完成海量数据的处理。

Hadoop安装过程

搭建Linux环境:
1)在Vmware 虚拟机中安装rhel-server-6.3-i386-dvd.iso
2)设置Vmware虚拟机的网络方式为bridge(桥接)

Hadoop伪分布模式安装步骤:
1)关闭防火墙:
查看Linux系统防火墙状态:
命令:Service iptables status
关闭防火墙
命令:service iptables stop
关闭防火墙的自动运行
命令:chkconfig iptables off
2)修改IP:
设置Linux系统静态IP地址
因为虚拟机网络采用bridge桥接方式,客户机和宿主机在同一个局域网中,因此按如下方式设置客户操作系统的IP地址:
客户操作系统的IP地址和主操作系统在同一网段
客户操作系统的网关和主操作系统一致
客户操作系统的DNS和主操作系统一致
设置完毕执行命令:service network restart重启Linux系统网络。
验证:使用ifconfig命令查看设置是否成功
3)修改HOSTNAME:
修改当前会话中的主机名(暂时性):
命令:hostname hadoop
修改配置文件中的主机名(永久性):
vi /etc/sysconfig/network
HOSTNAME=hadoop
4)设置ssh自动登录:
执行以下命令产生密钥,位于~/.ssh目录
ssh-keygen –t rsa
执行以下拷贝命令,创建密钥文件authorized_keys
cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys
验证:
执行命令:ssh localhost 登录主机
执行命令:exit 退出连接
5)安装jdk:
使用winscp将jdk安装文件从windows拷贝到Linux的/usr/local目录下
给jdk文件赋予用户的可执行权限:
chmod u+x jdk文件
解压缩jdk文件
./jdk文件
为以后使用方便,将解压后的文件夹重命名为jdk
mv 旧文件名 jdk
设置环境变量:
vi /etc/profile #编辑此文件,增加2行内容
export JAVA_HOME=/usr/local/jdk
export PATH=.:$JAVA_HOME/bin:$PATH
执行以下命令,使设置立即生效
source /etc/profile
验证:
java -version
6)安装hadoop
1.使用winscp将hadoop安装包拷贝/usr/local目录下,然后进入此目录解压缩hadoop安装文件
tar zxvf hadoop-2.6.2.tar.gz
2.设置环境变量:
vi /etc/profile #编辑此文件,增加2行内容
export HADOOP_HOME=/usr/local/hadoop-2.6.2
export PATH=.:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
执行以下命令,使设置立即生效
source /etc/profile
3.修改hadoop的配置文件:配置文件路径:/usr/local/hadoop-2.6.2/etc/hadoop/ 目录下
修改hadoop-env.sh 文件,配置jdk的路径
export JAVA_HOME=/usr/lib/jvm/jdk…(jdk实际安装路径)
修改yarn-env.sh 文件,配置jdk的路径
export JAVA_HOME=/usr/lib/jvm/jdk…(jdk实际安装路径)
修改 core-site.xml,添加以下内容,配置HDFS的地址和端口号
<configuration>
<property>
<name>fs.defaultFS
<value>hdfs://hadoop0:9000
</property>
<property>
<name>hadoop.tmp.dir
<value>/usr/local/hadoop-2.6.2/tmp
</property>
</configuration>
4.修改hadoop的配置文件:
修改 hdfs-site.xml文件,修改block副本数:replication
<configuration>
<property>
<name>dfs.replication
<value>1
</property>
</configuration>
修改mapred-site.xml,配置使用yarn框架
先创建mapred-site.xml:
执行命令:cp mapred-site.xml.template mapred-site.xml
在进行下面的配置:
<configuration>
<property>
<name>mapreduce.framework.name
<value>yarn
</property>
</configuration>
修改yarn-site.xml,配置yarn属性及端口
<configuration>
<property>
<name>yarn.nodemanager.aux-services
<value>mapreduce_shuffle
</property>
<property>
<name>yarn.resourcemanager.address
<value>hadoop0:9001
</property>

Hadoop的配置及启动
1)格式化hdfs:
hadoop namenode –format
启动/关闭所有进程:
start-all.sh stop-all.sh
启动/关闭hdfs:
start-dfs.sh stop-dfs.sh
启动/关闭yarn
start-yarn.sh stop-yarn.sh
2)验证hadoop安装是否成功:
1.执行命令jps查看java进程,是否启动了以下5个进程:
NameNode,SecondaryNamenode,DataNode、ResourceManager、NodeManager
以上5个进程运行在主节点的有:
NameNode,SecondaryNamenode ,ResourceManager
运行在从节点的有:
DataNode、NodeManager
2.通过浏览器访问hadoop
在浏览器分别输入以下地址进行访问:
hadoop(主机名):50070
Hadoop(主机名):50030
至此安装配置完成!

分布式文件系统HDFS命令

HDFS操作命令帮助:
所有的hdfs命令都是以hadoop fs开头
HDFS的shell命令在线帮助
1.hadoop fs
使用此命令可以查看HDFS的所有常用命令语法
2.hadoop fs help
使用此命令可以查看HDFS的所有常用命令语法
3. hadoop fs –help 命令
查看某个命令的具体功能

HDFS的fs命令
-help [cmd] //显示命令的帮助信息
-ls( r) <path> //显示当前目录下所有文件
-du(s) <path> //显示目录中所有文件大小
-count[-q] <path> //显示目录中文件数量
-mv <src> <dst> //移动多个文件到目标目录
-cp <src> <dst> //复制多个文件到目标目录
-rm(r ) //删除文件(夹)
-put <localsrc> <dst> //本地文件复制到hdfs
-copyFromLocal //同put
-moveFromLocal //从本地文件移动到hdfs
-get [-ignoreCrc] <src> <localdst> //复制文件到本地,可以忽略crc校验
-getmerge <src> <localdst> //将源目录中的所有文件排序合并到一个文件中
-cat <src> //在终端显示文件内容
-text <src> //在终端显示文件内容
-copyToLocal [-ignoreCrc] <src> <localdst> //复制到本地
-moveToLocal <src> <localdst>
-mkdir <path> //创建文件夹
-touchz <path> //创建一个空文件

课堂笔记

第一章Hadoop最初的两个核心项目
Hdfs 分布式文件系统(强调一下是一个文件系统)
守护进程:namenode(主节点,名称节点,只有一个) datanode(从节点,数据节点,可能有若干个)
Mapreduce 并行计算框架
守护进程:jobtracker(主节点,只有一个) tasktracker(从节点,可能有若干个)(hadoop1.x的内容,后面会进行更新)

特点:可靠性、低成本、高效率、扩容能力

第二章 hadoop安装配置(上)
第一节 基础环境配置
前置(可选)普通用户获取部分管理员权限
操作步骤:
登陆虚拟控制台ctrl+alt+f2
登录管理员用户和密码
打开sudoers文件 $vim /etc/sudoers
找到第98行 root ALL=(ALL) ALL
将其复制,并更改为ryan(你的用户名) ALL=(ALL) ALL
保存退出:按esc,输入:wq
到这一步,ryan用户就获取了所有的管理员权限,执行管理员命令时,需要在前面加上sudo命令。
1.1基础网络配置
网络联通配置
1) 打开网络配置文件 sudo vim /etc/sysconfig/network-scripts/ifcfg-eno176……
输入密码
在此文件中更改以下内容
BOOTPROTO=static
ONBOOT=yes
在此文件中添加以下内容
IPADDR=192.168.237.10
NETMASK=255.255.255.0
GATEWAY=192.168.237.2
DNS1=8.8.8.8
2) 重启网络
service network restart
3) 测试
ping 8.8.8.8

第二章 hadoop安装配置(下)
主机名与IP地址对应关系操作
1.设置主机名
sudo vim /etc/hostname
删除原有内容,添加自己的主机名
2. 设置主机名与IP地址的对应关系
sudo vim /etc/hosts
此文件在最后添加对应关系如下
IP地址1 主机名1
IP地址2 主机名2
。。。
3. 关闭防火墙
systemctl stop firewalld
设置防火墙开机不启动
systemctl start firewalld
设置防火墙打开
systemctl status firewalld
查看防火墙

Jdk的安装
1.奖jdk安装文件复制到虚拟机中去,在自己的用户目录下新建一个java目录。将安装文件移动到该目录下解压。
解压命令 tar zxvf 压缩包名
解压完成,会在当前目录下出现一个新的目录文件。将此目录改名为jdk目录(使用mv命令,作用是简化目录名)
打开用户目录下的.bashrc文件
Vim ~/.bashrc
在此文件的任意位置添加以下内容
JAVA_HOME=/home/ryan/java/jdk
PATH=${PATH}: ${JAVA_HOME}/bin

添加完成后保存退出
让此文件立即生效
Source ~/.bashrc

总结

经过这7周的学习收获颇多,故发此文章以便以后需要时方便查阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值