PIG入门

最新推荐文章于 2024-06-04 11:20:50 发布

wealon

最新推荐文章于 2024-06-04 11:20:50 发布

阅读量884

点赞数

分类专栏： pig hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wealon/article/details/41924523

版权

hadoop 同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

PIG入门

★ PIG简介

1：Pig是基于Hadoop的一个数据处理框架。

MapReduce是使用Java进行开发，Pig有一套自己的数据处理语言，Pig的数据处理过程要转化为MR来运行。

2：Pig的数据处理语言是数据流方式的。何为数据流？

3：Pig的基本数据类型：int、long、float、double、chararry、bytearray

Pig的复杂数据类型：Map 、Tuple、Bag

Bag的类型如下：

{('age',31),('name','lili')}

★ PIG数据类型

以下图片摘自官网。

简单类型有：int long float double chararray bytearray boolean datetime

复杂类型有：tuple bag map

上图有相应数据类型的示例。

★ Pig的安装

上传安装包，解压、重命名省略

1：编辑文件vi /etc/profile 设置环境变量

export $PIG_HOME=/usr/local/pig

export PATH =......$PIG_HOME/bin

保存，然后执行source /etc/profile

2：编辑文件$PIG_HOME/conf/pig.properties，增加两行如下内容

fs.default.name=hdfs://hadoop5:9000

mapred.job.tracker=hadoop5:9001

★ Pig命令行示例

进入命令行方式，进入$PIG_HOME/bin目录下

执行命令：pig 进入如下命令行提示信息。

▲ 1：准备数据

表数据

table1.txt

=====================================

zhangsan 23 1

lisilisi 24 1

wangmazi 30 1

meinv 18 0

dama 55 0

table2.txt

=====================================

1 a

23 bb

50 ccc

30 dddd

66 eeeee

▲ 2：从文件导入数据

table1 = LOAD '/table1.txt' USINGPigStorage('\t') AS (user:chararray, age:int,is_male:int);

table2 = LOAD '/table2.txt' USINGPigStorage('\t') AS (age:int,options:chararray);

▲ 3：查询整张表

DUMP table1;

DUMP table2;

▲ 4：查询前2行

limit_table1 = LIMIT table1 2;

DUMP limit_table1;

▲ 5：查询某些列

column_table1 = FOREACH table1 GENERATEuser;

DUMP column_table1;

▲ 6：给列取别名

alias_table1 = FOREACH table1 GENERATE userAS user_name,age AS user_age;

DUMP alias_table1;

▲ 7：排序

order_table1 = ORDER table1 BY age ASC;

DUMP order_table1;

▲ 8:条件查询

condition_table1 = FILTER table1 by age> 20;

DUMP condition_table1;

▲ 9:内连接Inner Join

inner_join_table = JOIN table1 BYage,table2 BY age;

DUMP inner_join_table;

▲ 10:左连接Left Join

left_join_table = JOIN table1 BY age LEFTOUTER,table2 BY age;

DUMP left_join_table;

▲ 11.右连接Right Join

right_join_table = JOIN table1 BY age RIGHTOUTER,table2 BY age;

DUMP right_join_table;

▲ 12.全连接Full Join

full_join_table = JOIN table1 BY age FULLOUTER,table2 BY age;

DUMP full_join_table;

▲ 13.同时对多张表交叉查询

cross_table = CROSS table1,table2;

DUMP cross_table;

▲ 14.分组GROUP BY

group_table = GROUP table1 BY is_male;

DUMP group_table;

▲ 15.分组并统计

group_count_group_table = GROUP table1 BYis_male;

group_count_group_table = FOREACHgroup_count_group_table GENERATE group,COUNT($1);

DUMP group_count_group_table;

▲ 16.查询去重DISTINCT

distinct_table = FOREACH table1 GENERATEis_male;

distinct_table = DISTINCT distinct_table;

DUMP distinct_table;

▲ 17 保存数据到HDFS

待补充

★ 案例1：用PIG LATIN 处理电信上网例子

以下是数据格式：

以下是各个字段的意思。

步骤：

1：把待处理的数据上传到HDFS中/wlan

2：把HDFS中的数据转换为pig可以处理的模式

A= LOAD '/wlan' AS (t0:long, msisdn:chararray, t2:chararray, t3:chararray,t4:chararray, t5:chararray, t6:long, t7:long, t8:long, t9:long, t10:chararray);

3：把里面的有用的字段抽取出来

B= FOREACH A GENERATE msisdn, t6, t7, t8, t9;

4：分组数据

C= GROUP B BY msisdn;

5：流量汇总

D= FOREACH C GENERATE group, SUM(B.t6),SUM(B.t7), SUM(B.t8), SUM(B.t9);

6：存储到HDFS中

STORE D INTO '/wlan_result';

★ 案例2：用PIG LATIN 处理学生选课信息

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
PIG入门

PIG入门★ PIG简介1：Pig是基于Hadoop的一个数据处理框架。 MapReduce是使用Java进行开发，Pig有一套自己的数据处理语言，Pig的数据处理过程要转化为MR来运行。2：Pig的数据处理语言是数据流方式的。何为数据流？3：Pig的基本数据类型：int、long、float、double、chararry、bytearray Pig的复杂数据类型：
复制链接

扫一扫

专栏目录

wealon CSDN认证博客专家 CSDN认证企业博客

码龄15年

17: 原创

44万+: 周排名

141万+: 总排名

1万+: 访问

: 等级

304: 积分

3: 粉丝

1: 获赞

2: 评论

4: 收藏

私信

关注

热门文章

分类专栏

hadoop 11篇
linux
hive 1篇
hbase 1篇
pig 1篇
java 3篇
数据库 1篇
spring 1篇
测试文章图片 1篇
java算法 1篇
ios 1篇
Flume 1篇
HDFS 1篇
MapReduce 1篇
sqoop 1篇
zookeeper 1篇
测试分类

最新评论

分页算法（Java）
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加内容的多样性(例如使用标准目录、标题、图片、链接、表格等元素)；(2)使用更多的站内链接；(3)增加条理清晰的目录。
二分查找算法-递归-非递归实现
wealon: 此算法已经测试过。此算法的前提是：二分查找的数据集必须是有序的。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。