2015年12月_李元乐

12月 11月 10月 09月 08月 07月

原创 MapReduce之Map端Join实现

前面说了个MapReduce之Reduce端Join实现，Reduce端做join，在数据量比较大的时候往往会内存不足，还在Map端白白做了很多工作，这样是不经济的。这回咱们也来说个在Map端的Join实现。在数据量较大的时候，如果一个表的数据很多，而另外一个表的数据较少，可以把数据较少的放到Cache中，在map的时候就把要关联的信息直接给带上，而不用到Reduce的时候再去找，这样当然会节省很

2015-12-26 22:39:14 869

原创数据收集---web访问日志收集与统计

话说web访问日志，很多同学对百度统计，谷歌统计(google analytics)很熟悉，就是加点js代码埋点，然后很方便可以从百度等获得网站的访问情况统计。这种方式的确是很方便，自己可以不用管日志的数据，对系统的影响也很小，还可以增加网站排名(?)，哈哈，总之，是很方便。如果想了解其原理？如果想自己来收集保存这个数据呢？我们一起来看看这个过程吧，做一个自己的统计工具。下面我们来说说整个步骤

2015-12-25 17:33:01 5901 1

原创数据展现---BIRT报表

BIRT报表不多说了，java的，Free的，随便说下，网上很多BIRT帖子的下面评论很多某某司的水军回复，鄙视下，别人都是开源免费的，还攻击，真的是很汗颜，有本事你也开源，有本事去攻击Cognos之类的啊。算了，不说了，我们的特色，你懂的。下面来说说BIRT中可能遇到的一些常见几个问题，网上的都是版本比较旧的，我用的版本是BIRT 4.5。1，排序排序的方法有几种，网

2015-12-22 10:11:15 1978

原创 MapReduce之Reduce端Join实现

MapReduce之Helloword很简单，但是要想继续自己来写，还有很多坑要注意。这不，咱们这回来个Reduce端Join实现。网上一搜，有很多，我们要来个自己的吧。废话少说，先上传一些数据到HDFS上。input/pd.csv(假设这个是产品名称文件)1,a,apple2,b,orange3,c,bananainput/sale.csv（假设这个是销售记录，数据和

2015-12-20 00:20:10 594

数据分析师成长之路1218.pdf

数据分析师成长的必由之路，需要哪些技能，知识储备，数据怎么分析，怎么提升技巧，听听大咖的介绍。

2019-06-15

R统计语言教程.pdf

R统计语言基础教程，涵盖基础语法规则，基础数据操作，统计基础知识，基本算法操作。对于正在学习R的同学，是难得的入门教程。

2019-05-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人