1.hadoop基本知识
1.1 特点:
扩容能力:能可靠地存储和处理千兆字节的数据;
成本低:可以通过普通机器组成的服务器来分发以及处理数据,这些服务器群总计可达千个节点。
高效率:通过分发数据,可以在数据所在胡节点一并行胡处理他们,赭石的处理非常快速;
可靠性:hadoop 能自动的维护数据的多份副本,并且在任务失败后能自动的重新部署计算任务;
1.2 HDFS :分布式文件系统
是一种允许文件通过网络在多台主机上分享的文件系统,可以让多机器上的多用户分享文件和存储空间;主从结构 :
主节点 ,只有一个 :namenode
接收用户操作请求,维护文件系统的目录结构,管理文件与block之间的关系,blocak与datanode之间的关系;
从节点,有很多个: datanodes
存储文件,文件被分成block存储在磁盘上,为保证数据安全,文件会有多个副本;
1.3 MapReduce : 并行计算框架
主从结构:主节点 ,只有一个 :JobTracker
接收客户提交的计算任务,把计算任务分给TaskTrackers执行,监控TaskTracker的执行情况;
从节点,有很多个: TaskTrackers
执行JobTracker分配计算任务;
1.4 系统信息
deepin 15
2.ssh安装配置
2.1 执行安装
yuan@LABELNET:/$ sudo apt-get install openssh-server
大约几分钟
2.2 测试登陆
<span style="font-family: 'Comic Sans MS';">yuan@LABELNET:/$ ssh localhost</span>
中途需要数几次密码,linux 密码
2.3 配置免密码登陆
(1)退出ssh
yuan@LABELNET:/$ exit
(2) 进入ssh目录
yuan@LABELNET:/$cd ~/.ssh/
如果没有该目录,则先进行测试登陆;
(3)配置
yuan@LABELNET:/$ssh-keygen -t rsa
中间输入密码的时候,之间回车就可以了;
注意 :ssh-keygen之间没有空格,有空格则报错 :
yuan@LABELNET:~/.ssh$ ssh -keygen -t rsa
Bad escape character 'ygen'.
(4) 加入授权
yuan@LABELNET:~/.ssh$cat id_rsa.pub >> authorized_keys
成功后的提示 :
SHA256:oAFCxlkVfBwFcCcDEpGlYEYlUdVf+Q481mFiRHFCjjo yuan@LABELNET
The key's randomart image is:
+---[RSA 2048]----+
|=XBBOB**+o+*o. |
|++ooo..++ o=oo |
| .. o ..+.= . |
| o ... = o |
| . ES . + |
| . . |
| |
| |
| |
+----[SHA256]-----+
配置免密码登陆ssh成功!
3.伪分布式安装
本来是主从结构的,如果是伪分布式的化,是的全部的进程任务在一台机器中运行,但是其调用方式和运行方式是不变的;
3.1 下载
3.2 解压
解压到 /usr/local 目录下
yuan@LABELNET:/mnt/8A962B78962B6443/BIGDATA/Install$ sudo tar -zxvf ./hadoop-2.6.0.tar.gz -C /usr/local/
3.3 修改文件夹名为 hadoop
yuan@LABELNET:/usr/local$ sudo mv ./hadoop-2.6.0/ ./hadoop
3.4 修改权限
yuan@LABELNET:/usr/local$ sudo chmod 777 ./hadoop
3.5 进入hadoop 文件下的 etc/hadoop文件夹下
yuan@LABELNET:/usr/local/hadoop/etc/hadoop$
3.6 配置core-site.xml 文件
$ sudo gedit core-site.xml
配置为 :
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/local/hadoop/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
3.7 配置 hdfs-site.xml
配置为 :
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/data</value>
</property>
</configuration>
3.8 对namenode 进行格式化
yuan@LABELNET:/usr/local/hadoop$ bin/hdfs namenode -format
在hadoop 根目录下进行;
成功会出现:successfully formatted 字样;
3.9 开启测试hadoop
yuan@LABLENET:/usr/local/hadoop$ sbin/start-all.sh 或者 $ sbin/start-dfs.sh
启动过程中输入yes即可!
3.10 输入jps 测试
NameNode、DataNode 和 SecondaryNameNode , 安装成功
3.11 浏览器测试
打开浏览器 输入 :http://localhost:50070 ,输入 namenode 和 datanode 的信息
4.总结
伪分布安装到此结束,下面将一个 wordcount 分词的例子 , 和 进行全局配置 hadoop 和 yarn ;