![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 76
ahugeduck
这个作者很懒,什么都没留下…
展开
-
Pig 处理大量的小文件
Mapreduce job非常合适处理大文件,不善于处理大量的小文件。在处理大量小文件的时候,因为一个mapperjob需要的数据几乎全部来自网络,建立连接和传递数据的开销很大,所以导致job运行的时间变长,时间效率降低。同时大量的小文件会占用很多的namespace。所以在pig中要避免出现大量的小文件。但有时候这样的现象经常出现,尤其是当我们需要从一大堆数据中抽取几列数据作分析的时候。所以原创 2014-07-13 22:53:29 · 2350 阅读 · 0 评论 -
用Pig处理高压缩比数据
最近遇到了一个神奇的问题。我有一个5M的数据,用pig处理非常慢。分析mapreduce日志,发现是第一个处理数据的mapper非常慢。为什么呢?我一直找不到原因,直到我偶然把这5M数据的生成方式改为非压缩后,我立即明白了:这5M的数据非压缩情况下有900M!也即是说,当第一个mapper把数据加载内存做解压后,一个5M的数据变成了900M。实际上在java对象中,磁盘上的900M加载的内存后原创 2014-07-13 22:48:14 · 1062 阅读 · 0 评论 -
Pig Java Udf 简介
在用pig的过程中,经常需要自己写udf,一般我会写java的udf,配置一个maven的项目来管理。一个基本的pig java udf的maven项目的pom定义如下: <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:原创 2015-06-18 10:18:25 · 2073 阅读 · 0 评论 -
Pig python udf简介
我的习惯是用java写pig udf,为了图方便,我尝试用python写udf,发现非常简单,对于测试或者快速验证非常有价值,下面有一个简单的例子。更多的信息,参考官方链接:http://pig.apache.org/docs/r0.14.0/udf.html#jython-udfs 下面的例子用来计算一个分布的总熵:import math@outputSchema("element:原创 2015-06-26 20:51:19 · 2831 阅读 · 1 评论