hadoop(一)–安装和基本使用
一、简介
1.1 hadoop特点
hadoop是apache开发的分布式系统。在分布式环境中,用于大数据量的存储和处理。
1.2 hadoop组成
hadoop主要由两部分组成,hdfs(hadoop distributed file system)分布式文件系统和MapReduce编程模型。
- hdfs:对以往的文件系统进行了抽象,文件存放在多台机器上,但共享同一个地址空间。
- MapReduce:一种数据处理方式,可批量处理大量数据,当然是非实时的(响应时间要根据处理的数据量大小)。
二、hadoop关键配置文件
2.1 core-site.xml
用于配置Common组件的属性
2.2 hdfs-site.xml
用于配置hdfs属性
2.3 mapred-site.xml和yarn-site.xml
用于配置MapReduce属性
2.4 hadoop-env.sh
配置hadoop运行环境,如配置jdk路径等
三、hadoop安装前准备
3.1 jdk安装
首先确保jdk已经安装,这里安装的是jdk8。
3.2 设置免密登录
通过命令ssh localhost可免密登录,若不能以ssh方式登录安装机,则需安装,步骤如下:
- sudo apt-get install ssh
- 在登录用户主目录下,输入 ssh-keygen -t rsa -P ‘’ -f .ssh/id_rsa
- cp .ssh/id_rsa.pub .ssh/authorized_keys
- 最后使用ssh localhost看是否能免密登录。
四、hadoop安装
下面以伪分布式(安装在一台机器上,模拟小规模集群)安装为例进行介绍。
4.1 下载hadoop
下载地址:http://hadoop.apache.org/releases.html ,这里使用的版本是hadoop-2.7.1,即安装包为hadoop-2.7.1.tar.gz
4.2 解压到自定义的安装目录
tar -zxvf hadoop-2.7.1.tar.gz
4.3 进入安装目录
cd hadoop-2.7.1
# 再进入配置文件目录
cd etc/hadoop
4.4 修改hadoop-env.sh文件
指定java_home目录,添加配置如下:
export JAVA_HOME=/usr/local/java
4.5 修改core-site.xml文件
修改配置如下:
<configuration>
<!-- hdfs文件地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://192.168.0.1:9000</value>
</property