实验原理
Apache Pig 是一个高级过程语言,适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似 SQL 的查询,Pig 可以简化 Hadoop 的使用。
用MapReduce进行数据分析。当业务比较复杂的时候,使用MapReduce将会是一个很复杂的事情,比如你需要对数据进行很多预处理或转换,以便能够适应MapReduce的处理模式。另一方面,编写MapReduce程序,发布及运行作业都将是一个比较耗时的事情。Pig的出现很好的弥补了这一不足。Pig能够让你专心于数据及业务本身,而不是纠结于数据的格式转换以及MapReduce程序的编写。本质是上来说,当你使用Pig进行处理时,Pig本身会在后台生成一系列的MapReduce操作来执行任务,但是这个过程对用户来说是透明的。
实验步骤
1.Linux命令行上,使用下面命令新建/data/pig1目录。
mkdir -p /data/pig1
2.切换到/data/pig1目录,使用wget命令从http://192.168.19.201:60000/allfiles/pig1目录下,下载实验所需的压缩包。
cd /data/pig1
wget http://192.168.19.201:60000/allfiles/pig1/pig-0.17.0.tar.gz
3.使用tar命令,解压/data/pig1目录下的pig-0.17.tar.gz包,到/apps目录。
tar zxvf /data/pig1/pig-0.17.0.tar.gz -C /apps
4.切换到/apps目录下,使用mv命令修改pig名称pig-0.17.0为pig。
cd /apps
mv pig-0.17.0 pig
5.使用vim打开用户环境变量~/.bashrc。
vim ~/.bashrc
将pig的bin目录,追加的用户环境变量中。
#Pig
export PIG_HOME=/apps/pig
export PATH=$PIG_HOME/bin:$PATH
执行source命令,使用户环境变量生效。
source ~/.bashrc
6.输入下面命令,验证安装是否成功。
pig -x local
到此Pig本地模式已经安装完成!最后使用quit命令退出Pig交互式环境
quit
下面配置Pig的mapreduce模式
7.使用vim打开用户环境变量~/.bashrc。
vim ~/.bashrc
8.将pig的PIG_CLASSPATH,追加的用户环境变量中(这里的HADOOP_HOME和Pig的PATH必须是已经配置好的)。
export PIG_CLASSPATH=$HADOOP_HOME/conf
9.执行source命令,使用户环境变量生效。
source ~/.bashrc
10.启动hadoop,首先需要保证hadoop的HDFS框架相关进程为启动状态。
cd /apps/hadoop/sbin
./start-all.sh
11.验证pig的mapreduce模式是否配置成功,直接输入pig命令,出现“grunt>”提示即可(这里必须先启动hadoop) 。
pig
- 修改Pig的日志文件目录。Pig的日志默认在当前目录,不方便进行分析和管理,需要修改日志文件目录。
首先使用quit命令退出Pig交互式环境。
quit
13.在Linux的命令行,使用mkdir命令在/apps/pig目录下新建logs文件夹,用于存放日志文件。
mkdir /apps/pig/logs
14.使用vim命令,打开/apps/pig/conf/目录下的pig.properties文件,
vim /apps/pig/conf/pig.properties
15.向pig.properties文件中添加以下信息。
pig.logfile=/apps/pig/logs
16.直接输入pig命令,在下图红框中可看到日志的管理位置。
pig
到此Pig的MapReduce模式已经安装完成。