Pig WordCount案例学习(flatten,TOKENIZE)

[size=large][color=red][b]WordCount实现 [/b][/color][/size]
-- ① 加载数据
a= load '/input/data' as (line:chararray);
-- ② 将字符串分割成单词
b= foreach a generate flatten(TOKENIZE(line)) as word;
-- ③ 对单词进行分组
c= group words by word;
-- ④ 统计每组中单词数量
d= foreach c generate group,COUNT(b);
-- ⑤ 打印结果
dump cntd;

[b]foreach a generate group :[/b]对c中所有key进行分组
a = (a,{})(b,{})(b,{}):foreach a generate group =>得到(a,b,c)
--------------------------------------------------------------
line = (lin lin lin)
[b]TOKENIZE:[/b]foreach a generate TOKENIZE(line,'') =>({(lin),(lin),(lin)})

[b]flatten:[/b]会把集合的内容打开然后组合一个元组; ({(lin),(lin),(lin)}) =>(lin)(lin)(lin)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值