自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 关于Maven dependency中外部jar包依赖的问题

在maven项目中,我们的项目依赖一般取自local的repository或者远程的repository,比如下面这个配置: commons-cli commons-cli 1.2一般而言,maven会先去本地的repository寻找,如果找不到,就会依据的定义,去远程的repository去找依赖。不过有时候,我们依赖的jar并不在任何repository中,可能就是

2015-08-07 20:29:45 21811

原创 周日和周一的人群行为差异

最近做过一个统计,主要是记录一天每个时间用户上网逛购物的频率,得到如下的图,挺有趣的。 红色的线条是周一的结果,深蓝色的线条是周日的结果。首先我们发现,红线要高于蓝线。工作日上班时间,人们逛购物网站的频率要大于周末!人们更喜欢在工作的时候逛网站购物。很超出我的预期,我本以为周末大家闲了,更有时间去逛个够。估计老板们看到了很郁闷啊。 如果我们看一条线更仔细一点,比如红线,我们发现

2015-07-30 19:47:46 884

原创 读取kafka 0.8 简单例子

Kafka0.8和kafka0.7变化非常大,使用方式和接口class都变掉了。这里简单介绍一下0.8的kafka如何读取数据。系统中的flume会把数据写到kafka,为了验证数据的正确性,我就写了一个读取kafka的小程序。所以这个项目的主要意义是为了做数据验证,实际的生产环境的配置会比这个复杂。我使用的是maven管理java项目。首先maven的dependency是这样的:

2015-07-12 17:51:26 4690

原创 读写kafka 0.7简单示例

Kafka0.8和kafka0.7变化非常大,使用方式和接口class都变掉了。这里简单介绍一下0.7的kafka如何写入数据。因为刚好工作中用的是0.7的kafka,所以必须要使用0.7的接口往kafka写数据,这是一个老版本的程序,所以意义不大,这是作为参考。我使用的是maven管理java项目。首先maven的dependency是这样的: <project xmlns="h

2015-07-01 20:08:01 1594

原创 Java的String不能处理中文utf-8编码

Sequence File 文件格式支持文件分割,所以适合map-reduce作业。最近有一个项目,把kafka的protobuf数据写到hdfs,方便下游的离线作业做数据分析。在kafka中,protobuf序列化成了byte数组(message就是byte数组)。这个时候在linkedin的camus(linkedin开源的一个把kafka数据写到hdfs 的工具)中配置作业把kafka

2015-06-30 10:46:54 11338

原创 Pig python udf简介

我的习惯是用java写pig udf,为了图方便,我尝试用python写udf,发现非常简单,对于测试或者快速验证非常有价值,下面有一个简单的例子。更多的信息,参考官方链接:http://pig.apache.org/docs/r0.14.0/udf.html#jython-udfs 下面的例子用来计算一个分布的总熵:import math@outputSchema("element:

2015-06-26 20:51:19 2856 1

原创 Pig Java Udf 简介

在用pig的过程中,经常需要自己写udf,一般我会写java的udf,配置一个maven的项目来管理。一个基本的pig java udf的maven项目的pom定义如下: <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:

2015-06-18 10:18:25 2102

原创 Pig 处理大量的小文件

Mapreduce job非常合适处理大文件,不善于处理大量的小文件。在处理大量小文件的时候,因为一个mapperjob需要的数据几乎全部来自网络,建立连接和传递数据的开销很大,所以导致job运行的时间变长,时间效率降低。同时大量的小文件会占用很多的namespace。所以在pig中要避免出现大量的小文件。但有时候这样的现象经常出现,尤其是当我们需要从一大堆数据中抽取几列数据作分析的时候。所以

2014-07-13 22:53:29 2356

原创 用Pig处理高压缩比数据

最近遇到了一个神奇的问题。我有一个5M的数据,用pig处理非常慢。分析mapreduce日志,发现是第一个处理数据的mapper非常慢。为什么呢?我一直找不到原因,直到我偶然把这5M数据的生成方式改为非压缩后,我立即明白了:这5M的数据非压缩情况下有900M!也即是说,当第一个mapper把数据加载内存做解压后,一个5M的数据变成了900M。实际上在java对象中,磁盘上的900M加载的内存后

2014-07-13 22:48:14 1071

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除