pig
黑肚皮的窝
这个作者很懒,什么都没留下…
展开
-
pig Explain详解
有如下代码:b = load '/in_off/tree/20140101/*' as (date,uid);原创 2014-06-10 11:22:59 · 1768 阅读 · 0 评论 -
Pig年末数据失败之谜
Pig年末数据失败之谜.有个好好的作业,每月都原创 2014-11-04 19:19:25 · 810 阅读 · 0 评论 -
Pig优化之路之巧用Macro
问题: 去年用Pig进行了一系列报表和ETL的开发,感觉Pig很不错,没有Hive的娇贵,又比粗糙的MapReduce来的精巧,很称手。新年正好涉及以前的程序调整,借此之机,对Pig写的脚本进行了优化。毕竟,越用越熟,越能发现Pig的魅力。 在整理以前的Pig程序里,发现了一个问题,就是pig没有提取数据集大小的功能,所以每次要取数据集条数的工作,总会遗留下如下代码:curr原创 2015-01-09 16:14:07 · 1874 阅读 · 0 评论 -
组合pig和hive来进行数据分析
接到产品一个任务,需要对使用产品的用户操作系统来个分析。对清洗后的hive数据进行分析,发现,数据恰恰把操作系统数据进行了过滤,只有到rawlog里去进行数据分析了。但由于rawlog没有和数据库进行关联,就只有先对rawlog进行初步手工清洗,不清洗掉操作系统数据,再建hive临时表来解决了。第一步,用pig进行数据初步清洗,上代码REGISTER 'elephant-bird-原创 2015-03-31 17:37:54 · 4452 阅读 · 0 评论 -
hadoop eyes开发进度
有了hadoop集群后,对集群的作业指标进行统计,很多时候只能凭借jobtracker的日志界面进行查看。但日志界面没有历史趋势等统计功能。给数据平台的管理计费,和作业情况,会造成很大的困扰。特别是历史作业趋势和实时作业运行情况,对于拥有大数据计算集群的公司来说,非常重要。为解决这个问题,我们结合本公司内部的数据集群使用,采用python+flume+pig+mysql+php对集群情况做原创 2015-09-06 18:25:46 · 2387 阅读 · 0 评论