下载Pig链接: pig.apache.org
目前最新版本 0.12.1 ,我使用的版本是0.12.0
准备工作:
1.安装Pig前,要安装部署好Hadoop分布式集群。
2.下载好pig,版本自选
3.安装位置,我选择的是Namenode主机
安装步骤:
(一) 下载并解压pig安装包
(二) 编辑环境变量
1. 设置PATH,增加指向hadoop/bin
2. 这是PIG_CLASSPATH 环境变量
3. 设置PATH,增加指向pig/bin
4. 添加JAVA_HOME环境变量
编辑好后重新登陆,使得环境变量生效。
(三) 测试启动grunt shell
执行一些命令行,检测部署成功
测试Pig latin语句
常用语句:
LOAD : 指出载入数据的方法
FOREACH:逐行扫描进行某种处理
FILTER:过滤行
DUMP:把结果显示到屏幕
STORE:把结果保存到文件
通常书写执行顺序:
LOAD ——〉FOREACH——〉STORE
测试文件内容如下 :词条组,词条
Setp1. LOAD 格式化装载数据
A =LOAD '/user/criss/in/pig_test.txt' USING PigStorage(',') as (code_group,work);
DUMP A;