- 博客(4)
- 资源 (2)
- 收藏
- 关注
原创 MapReduce之Map端Join实现
前面说了个MapReduce之Reduce端Join实现,Reduce端做join,在数据量比较大的时候往往会内存不足,还在Map端白白做了很多工作,这样是不经济的。这回咱们也来说个在Map端的Join实现。在数据量较大的时候,如果一个表的数据很多,而另外一个表的数据较少,可以把数据较少的放到Cache中,在map的时候就把要关联的信息直接给带上,而不用到Reduce的时候再去找,这样当然会节省很
2015-12-26 22:39:14 869
原创 数据收集---web访问日志收集与统计
话说web访问日志,很多同学对百度统计,谷歌统计(google analytics)很熟悉,就是加点js代码埋点,然后很方便可以从百度等获得网站的访问情况统计。这种方式的确是很方便,自己可以不用管日志的数据,对系统的影响也很小,还可以增加网站排名(?),哈哈,总之,是很方便。如果想了解其原理?如果想自己来收集保存这个数据呢?我们一起来看看这个过程吧,做一个自己的统计工具。下面我们来说说整个步骤
2015-12-25 17:33:01 5901 1
原创 数据展现---BIRT报表
BIRT报表不多说了,java的,Free的,随便说下,网上很多BIRT帖子的下面评论很多某某司的水军回复,鄙视下,别人都是开源免费的,还攻击,真的是很汗颜,有本事你也开源,有本事去攻击Cognos之类的啊。算了,不说了,我们的特色,你懂的。下面来说说BIRT中可能遇到的一些常见几个问题,网上的都是版本比较旧的,我用的版本是BIRT 4.5。1,排序排序的方法有几种,网
2015-12-22 10:11:15 1978
原创 MapReduce之Reduce端Join实现
MapReduce之Helloword很简单,但是要想继续自己来写,还有很多坑要注意。这不,咱们这回来个Reduce端Join实现。网上一搜,有很多,我们要来个自己的吧。废话少说,先上传一些数据到HDFS上。input/pd.csv(假设这个是产品名称文件)1,a,apple2,b,orange3,c,bananainput/sale.csv(假设这个是销售记录,数据和
2015-12-20 00:20:10 594
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人