Hadoop入门(一)概念与单机安装

一、hadoop的概念

(1)什么是大数据

  大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具,而是涉及的业务和技术的许多领域。

 

(2)hadoop的定义

  Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

  Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

 

二、前置条件

vmvare10,ubuntu14

(1)Linux apt sources 使用aliyun镜像

sudo su
gedit /etc/apt/sources.list 注释所有内容
增加 /etc/apt/sources.list.d/00mirrors.aliyun.com.list
# aliyun
deb http://mirrors.aliyun.com/ubuntu/ trusty main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ trusty-security main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ trusty-updates main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ trusty-proposed main restricted universe multiverse
deb http://mirrors.aliyun.com/ubuntu/ trusty-backports main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ trusty main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ trusty-security main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ trusty-updates main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ trusty-proposed main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ trusty-backports main restricted universe multiverse
#更新
apt-get update

(2)Linux 安装 ssh (server 和 client)

sudo su
apt-get install ssh
#登录检验ssh
ssh -l mk localhost
#退出ssh
exit

 

三、Hadoop单机安装(Ubuntu14版)

在用户mk,jdk和Hadoop安装路径/home/mk/soft/

1、安装配置jdk

A、在线安装:

 

B、离线安装 

1)下载jdk-7u80-linux-x64.tar.gz

  下载路径:http://www.oracle.com/technetwork/java/javase/downloads/java-archive-downloads-javase7-521261.html

  把离线包拷入到ubuntu的当前用户mk的soft文件夹下,然后执行命令安装。


2)执行命令

mkdir ~/soft
tar -zxvf jdk-7u80-linux-x64.tar.gz
mv jdk1.7.0_80/ soft/jdk1.7.0_80

 

C、配置JDK环境变量JAVA_HOME

安装完jdk后,需要配置环境变量,把java变成系统内命令
编辑/etc/profile文件来修改系统环境变量。

1)配置环境变量

执行命令(后面java.sh不要有空格,如‘java.sh ’,否则读不了配置文件)

sudo gedit /etc/profile.d/java.sh

打开/etc/profile.d/java.sh文件在文件中添加如下配置

export JAVA_HOME=/home/mk/soft/jdk1.7.0_80
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$JAVA_HOME/bin:$PATH

注意:写配置值时,export语句的内容里面不要换行

 

2)验证配置

(1)使profile文件修改配置生效
  执行命令:source /etc/profile

   或者注销再登录当前用户

       执行命令:sudo reboot


(2)验证java质量

     执行命令 :java -version

 


 

2、安装hadoop

A、下载解压hadoop安装包

下载hadoop安装包hadoop-2.6.0.tar.gz

下载路径:http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.6.0/hadoop-2.6.0.tar.gz

 

B、拷贝到hadoop用户目录中,执行命令进行安装 

 执行命令 

tar xvf hadoop-2.6.0.tar.gz
mv hadoop-2.6.0 soft/

C、修改hadoop环境变量配置

 执行命令(后面hadoop.sh不要有空格,如‘hadoop.sh ’,否则读不了配置文件)
 

sudo gedit /etc/profile.d/hadoop.sh

   hadoop.sh的内容

export HADOOP_HOME=/home/mk/soft/hadoop-2.6.0
export CLASSPATH=.:$HADOOP_HOME/share/hadoop/common/hadoop-common-2.6.0.jar:$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.6.0.jar:$HADOOP_HOME/share/hadoop/common/lib/commons-cli-1.2.jar:$CLASSPATH
export PATH=$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$PATH

  注意:写配置值时,export语句的内容里面不要换行

 D、验证配置

 1)使hadoop命令配置生效

   执行命令:source /etc/profile

  或注销再登录当前用户

  2) 验证:
  hadoop version

 

3、启动Hadoop 

A、进入到 /home/mk/soft/hadoop-2.6.0/etc/hadoop目录,查看配置文件
    执行命令: cd soft/hadoop-2.6.0/etc/hadoop/
    列出配置文件:  ls

 

B、编辑/home/mk/soft/hadoop-2.6.0/etc/hadoop/hadoop-env.sh文件,修改参数信息

执行命令:

cd soft/hadoop-2.6.0/ etc/hadoop
sudo gedit hadoop-env.sh 

修改文件里面的export JAVA_HOME=${JAVA_HOME}为

export JAVA_HOME=/home/mk/soft/jdk1.7.0_80

 C、测试Hadoop环境可用性

  执行命令 :hadoop

 

三、测试例子

题目:使用hadoop自带的hadoop-mapreduce-examples-2.6.0.jar对某目录下的文档进行单词数的统计

执行命令:

#切换到用户目录

 cd /home/mk/

#在用户目录下创建input目录
 mkdir input

 #复制hadoop的配置文件进入input
 cp $HADOOP_HOME/etc/hadoop/*.xml input/

 #统计input目录里面的以dfs前缀的单词,保存结果在output目录
 hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar grep input output 'dfs[a-z.]+'

 #输出output目录的结果
 cat output/*

结果:

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值