Hadoop_ahugeduck的博客-CSDN博客

Hadoop

关注

文章平均质量分 76

关注数：文章数：4 文章阅读量：8315 文章收藏量：2

作者: ahugeduck

这个作者很懒，什么都没留下…

展开

Pig 处理大量的小文件

Mapreduce job非常合适处理大文件，不善于处理大量的小文件。在处理大量小文件的时候，因为一个mapperjob需要的数据几乎全部来自网络，建立连接和传递数据的开销很大，所以导致job运行的时间变长，时间效率降低。同时大量的小文件会占用很多的namespace。所以在pig中要避免出现大量的小文件。但有时候这样的现象经常出现，尤其是当我们需要从一大堆数据中抽取几列数据作分析的时候。所以

原创 2014-07-13 22:53:29 · 2350 阅读 · 0 评论
用Pig处理高压缩比数据

最近遇到了一个神奇的问题。我有一个5M的数据，用pig处理非常慢。分析mapreduce日志，发现是第一个处理数据的mapper非常慢。为什么呢？我一直找不到原因，直到我偶然把这5M数据的生成方式改为非压缩后，我立即明白了：这5M的数据非压缩情况下有900M！也即是说，当第一个mapper把数据加载内存做解压后，一个5M的数据变成了900M。实际上在java对象中，磁盘上的900M加载的内存后

原创 2014-07-13 22:48:14 · 1062 阅读 · 0 评论
Pig Java Udf 简介

在用pig的过程中，经常需要自己写udf，一般我会写java的udf，配置一个maven的项目来管理。一个基本的pig java udf的maven项目的pom定义如下： <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:

原创 2015-06-18 10:18:25 · 2073 阅读 · 0 评论
Pig python udf简介

我的习惯是用java写pig udf，为了图方便，我尝试用python写udf，发现非常简单，对于测试或者快速验证非常有价值，下面有一个简单的例子。更多的信息，参考官方链接：http://pig.apache.org/docs/r0.14.0/udf.html#jython-udfs 下面的例子用来计算一个分布的总熵：import math@outputSchema("element:

原创 2015-06-26 20:51:19 · 2831 阅读 · 1 评论

Hadoop

作者: ahugeduck

Pig 处理大量的小文件

用Pig处理高压缩比数据

Pig Java Udf 简介

Pig python udf简介