ahugeduck-CSDN博客

原创关于Maven dependency中外部jar包依赖的问题

在maven项目中，我们的项目依赖一般取自local的repository或者远程的repository，比如下面这个配置： commons-cli commons-cli 1.2一般而言，maven会先去本地的repository寻找，如果找不到，就会依据的定义，去远程的repository去找依赖。不过有时候，我们依赖的jar并不在任何repository中，可能就是

2015-08-07 20:29:45 21811

原创周日和周一的人群行为差异

最近做过一个统计，主要是记录一天每个时间用户上网逛购物的频率，得到如下的图，挺有趣的。红色的线条是周一的结果，深蓝色的线条是周日的结果。首先我们发现，红线要高于蓝线。工作日上班时间，人们逛购物网站的频率要大于周末！人们更喜欢在工作的时候逛网站购物。很超出我的预期，我本以为周末大家闲了，更有时间去逛个够。估计老板们看到了很郁闷啊。如果我们看一条线更仔细一点，比如红线，我们发现

2015-07-30 19:47:46 884

原创读取kafka 0.8 简单例子

Kafka0.8和kafka0.7变化非常大，使用方式和接口class都变掉了。这里简单介绍一下0.8的kafka如何读取数据。系统中的flume会把数据写到kafka，为了验证数据的正确性，我就写了一个读取kafka的小程序。所以这个项目的主要意义是为了做数据验证，实际的生产环境的配置会比这个复杂。我使用的是maven管理java项目。首先maven的dependency是这样的：

2015-07-12 17:51:26 4690

原创读写kafka 0.7简单示例

Kafka0.8和kafka0.7变化非常大，使用方式和接口class都变掉了。这里简单介绍一下0.7的kafka如何写入数据。因为刚好工作中用的是0.7的kafka，所以必须要使用0.7的接口往kafka写数据，这是一个老版本的程序，所以意义不大，这是作为参考。我使用的是maven管理java项目。首先maven的dependency是这样的： <project xmlns="h

2015-07-01 20:08:01 1594

原创 Java的String不能处理中文utf-8编码

Sequence File 文件格式支持文件分割，所以适合map-reduce作业。最近有一个项目，把kafka的protobuf数据写到hdfs，方便下游的离线作业做数据分析。在kafka中，protobuf序列化成了byte数组（message就是byte数组）。这个时候在linkedin的camus（linkedin开源的一个把kafka数据写到hdfs 的工具）中配置作业把kafka

2015-06-30 10:46:54 11338

原创 Pig python udf简介

我的习惯是用java写pig udf，为了图方便，我尝试用python写udf，发现非常简单，对于测试或者快速验证非常有价值，下面有一个简单的例子。更多的信息，参考官方链接：http://pig.apache.org/docs/r0.14.0/udf.html#jython-udfs 下面的例子用来计算一个分布的总熵：import math@outputSchema("element:

2015-06-26 20:51:19 2856 1

原创 Pig Java Udf 简介

在用pig的过程中，经常需要自己写udf，一般我会写java的udf，配置一个maven的项目来管理。一个基本的pig java udf的maven项目的pom定义如下： <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:

2015-06-18 10:18:25 2102

原创 Pig 处理大量的小文件

Mapreduce job非常合适处理大文件，不善于处理大量的小文件。在处理大量小文件的时候，因为一个mapperjob需要的数据几乎全部来自网络，建立连接和传递数据的开销很大，所以导致job运行的时间变长，时间效率降低。同时大量的小文件会占用很多的namespace。所以在pig中要避免出现大量的小文件。但有时候这样的现象经常出现，尤其是当我们需要从一大堆数据中抽取几列数据作分析的时候。所以

2014-07-13 22:53:29 2356

原创用Pig处理高压缩比数据

最近遇到了一个神奇的问题。我有一个5M的数据，用pig处理非常慢。分析mapreduce日志，发现是第一个处理数据的mapper非常慢。为什么呢？我一直找不到原因，直到我偶然把这5M数据的生成方式改为非压缩后，我立即明白了：这5M的数据非压缩情况下有900M！也即是说，当第一个mapper把数据加载内存做解压后，一个5M的数据变成了900M。实际上在java对象中，磁盘上的900M加载的内存后

2014-07-13 22:48:14 1071

demo_zj的专栏