hadoop
poson
搞过图像处理感觉刚入门做搜索引擎只玩过单机版广告技术做了QueryRewrite目前做推荐算法感觉推荐算法和关键词推荐本质上是一样的爱数学爱计算机爱生活
展开
-
hadoop的两表join
以前我们做hadoop join的时候,总是在每个数据的表头增加一个tag,然后在reduce中根据tag来区别。 实际上,我们可以节省这种tag,只需要使用multipleInput,就可以分别处理不同的输入路径。 而在reduce端,我们不需要读入一个key下面所有的数据,然后再做join。 http://www.gemini5201314原创 2012-03-27 09:23:03 · 825 阅读 · 0 评论 -
hadoop map数量太少的问题
某些时候map的数量太少,但是每个map的文件比较大,导致执行时间很长。为了充分利用hadoop的优势,我们把map的数据hash到更多的reduce节点去做处理。 使用随机数据都不是特别好,更好的方式是使用input line的hashCode。 public void map(LongWritable key, Text value, OutputCollector outpu原创 2012-04-11 09:42:16 · 1837 阅读 · 0 评论 -
hive 技巧
EXPLAIN select user_id,count(1) as cc from XXX group by user_id; 检查语法是否有问题:用EXPLAIN。 select avg(cc) from ( select user_id,count(1) as cc from XXX group by user_id )t;原创 2013-05-14 11:30:58 · 1308 阅读 · 0 评论 -
twiiter 推荐《WTF: The Who to Follow Service at Twitter》
《WTF: The Who to Follow Service at Twitter》文中介绍的是一个初始版本。第一次提供用户推荐,要求是质量可以,但是上线要快。 因此他们搞了一个单机版本。内存很大,144G ram,至今没有用过这么大内存的机器。 数据规模:照例讲了一个长尾分布,少数人有1000万follower,25个人有100万的follower。 介绍了一下 用不用h原创 2013-06-11 23:24:20 · 2566 阅读 · 0 评论 -
HUE平台oozie 调度系统设置踩坑记录
通过oozie调用hive和shell脚本都没有问题。shell脚本需要先上传到hdfs 的某个目录下,只要账户对这个目录有读权限就行。Stdoutput Warning: /opt/cloudera/parcels/CDH-5.13.0-1.cdh5.13.0.p0.29/bin/../lib/sqoop/../accumulo does not exist! Accumulo imports原创 2018-01-18 16:54:15 · 4019 阅读 · 0 评论