Pig的一个小问题 (filter之后 没有数据)

原创 2015年07月07日 17:11:31


写Pig的时候,如果需要对数据中某个字段进行 比较或者运算,尤其是使用Filter的时候。

该字段最好是 bytearray类型,而不要用 int 或者 chararray类型。否则得不到数据


--抽取话单文件中过程号为 attach的话单 统计
set job.name 'lte_kpi_user_analysis_s1mme_attatch_15min';

allData = load '/user/hdfs/data/200506/20050601/000000/0B43CED07C7438B4328F918C64DACE35-merge';


sel_fields = foreach allData generate  FLOOR($10/300)*300+8*3600 as  (time:chararray), $2 as (interface_type:chararray),$8 as (procedure_type:bytearray

,$7 as (msisdn:chararray),$6 as (imei:chararray),$5 as (imsi:chararray),$1 as (city:chararray),$21 as (mme_ip:chararray),$22 as (enodeb_ip:chararray)

,$25 as (tac:chararray),$26 as (cell_id:chararray),$12 as (cause:int),($10-$9) as  (delay:int),$11 as (procedure_status:bytearray);


--抽取过程号等于1 

s1mme_attach = filter sel_fields by procedure_type == 1;


group_by_user = group s1mme_attach by(time, interface_type, procedure_type, msisdn,imei, imsi, city,mme_ip,
   
   enodeb_ip, tac, cell_id, cause, hour,miniute15);
   

tmp_result = foreach group_by_user {
   
  failures = filter s1mme_attach by procedure_status>0;
   
   user_num = distinct s1mme_attach.imsi;
   
   generate FLATTEN(group), COUNT(failures) as count_fail, COUNT(user_num) as count_total, AVG(s1mme_attach.delay);
   
};

--测试输出

filter_tmp = limit s1mme_attach 10;

test_out = limit group_by_user 10;

test_out2 = limit tmp_result 10;

store  filter_tmp into  '/user/hdfs/xiatao/pigOutput/s1mme_attatch_15min_filter1';

store test_out into '/user/hdfs/xiatao/pigOutput/s1mme_attatch_15min_1';

store test_out2 into '/user/hdfs/xiatao/pigOutput/s1mme_attatch_15min_2';

如果不适用 bytearray类型,后面输出的几个文件夹中就没有数据。

Apache Pig字符串截取实战小例子

记录一个Pig字符串截取的实战小例子: 需求如下,从下面的字符串里提取出第2列(冒号后面)的值: Java代码   1 2  3 4  a:ab#c#d   a...
  • u010454030
  • u010454030
  • 2015年03月13日 17:32
  • 1212

算法设计分析中的: 骑士问题

8600 骑士问题 时间限制:1000MS  内存限制:1000K 描述 在一个标准8×8的国际象棋棋盘上,棋盘中有些格子是可能有障碍物的。已知骑士的初始位置和目标位置,你的...
  • a469770982
  • a469770982
  • 2014年05月26日 16:08
  • 1305

angular学习(十)—— Filter

转载请写明来源地址:http://blog.csdn.net/lastsweetop/article/details/54910212过滤器过滤器将表达式的运算结果格式化后呈现给用户,可以用于视图模版...
  • lastsweetop
  • lastsweetop
  • 2017年02月07日 15:18
  • 2239

extjs4.1 grid columns处理几个小问题(第一:combobox 中的store带参数到后台,第二model数据是一个object)

第一个问题:combobox中的store可以通过带参数来区分。 Ext.define("zyc.view.test.ComboboxStoreParam",{ extend:'Ex...
  • zhengyuechuan
  • zhengyuechuan
  • 2013年07月15日 22:34
  • 6677

解决一个小问题:git下载Kernel源码时只有.git\objects\pack目录下的.pack文件,而没有自动提取

问题描述: 下载 Android Kernel时只在.git\objects\pack目录下有类似如下的文件: pack-14fa0dd640c9345b90d63eac0b3ac19c624e9...
  • u013553529
  • u013553529
  • 2014年03月21日 02:03
  • 2981

易懂的ssh2项目实例(有一个小问题没解决)

  • 2014年05月22日 13:27
  • 21.03MB
  • 下载

在DelphiBss上看到的一个小问题,关于两个Qeury做主从

  • 2006年02月23日 09:05
  • 316KB
  • 下载

eclipse使用中的一个小问题

  • 2013年06月16日 00:28
  • 286KB
  • 下载

access中的一个小问题

  • 2009年05月21日 19:10
  • 31KB
  • 下载

Struts2 中的一个小问题

  • 2009年03月07日 09:12
  • 20KB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Pig的一个小问题 (filter之后 没有数据)
举报原因:
原因补充:

(最多只允许输入30个字)