自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 资源 (2)
  • 收藏
  • 关注

原创 MapReduce之Map端Join实现

前面说了个MapReduce之Reduce端Join实现,Reduce端做join,在数据量比较大的时候往往会内存不足,还在Map端白白做了很多工作,这样是不经济的。这回咱们也来说个在Map端的Join实现。在数据量较大的时候,如果一个表的数据很多,而另外一个表的数据较少,可以把数据较少的放到Cache中,在map的时候就把要关联的信息直接给带上,而不用到Reduce的时候再去找,这样当然会节省很

2015-12-26 22:39:14 869

原创 数据收集---web访问日志收集与统计

话说web访问日志,很多同学对百度统计,谷歌统计(google analytics)很熟悉,就是加点js代码埋点,然后很方便可以从百度等获得网站的访问情况统计。这种方式的确是很方便,自己可以不用管日志的数据,对系统的影响也很小,还可以增加网站排名(?),哈哈,总之,是很方便。如果想了解其原理?如果想自己来收集保存这个数据呢?我们一起来看看这个过程吧,做一个自己的统计工具。下面我们来说说整个步骤

2015-12-25 17:33:01 5901 1

原创 数据展现---BIRT报表

BIRT报表不多说了,java的,Free的,随便说下,网上很多BIRT帖子的下面评论很多某某司的水军回复,鄙视下,别人都是开源免费的,还攻击,真的是很汗颜,有本事你也开源,有本事去攻击Cognos之类的啊。算了,不说了,我们的特色,你懂的。下面来说说BIRT中可能遇到的一些常见几个问题,网上的都是版本比较旧的,我用的版本是BIRT 4.5。1,排序排序的方法有几种,网

2015-12-22 10:11:15 1978

原创 MapReduce之Reduce端Join实现

MapReduce之Helloword很简单,但是要想继续自己来写,还有很多坑要注意。这不,咱们这回来个Reduce端Join实现。网上一搜,有很多,我们要来个自己的吧。废话少说,先上传一些数据到HDFS上。input/pd.csv(假设这个是产品名称文件)1,a,apple2,b,orange3,c,bananainput/sale.csv(假设这个是销售记录,数据和

2015-12-20 00:20:10 594

数据分析师成长之路1218.pdf

数据分析师成长的必由之路,需要哪些技能,知识储备,数据怎么分析,怎么提升技巧,听听大咖的介绍。

2019-06-15

R统计语言教程.pdf

R统计语言基础教程,涵盖基础语法规则,基础数据操作,统计基础知识,基本算法操作。对于正在学习R的同学,是难得的入门教程。

2019-05-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除