hadoop
brtghtrd
这个作者很懒,什么都没留下…
展开
-
mahout脚本调用流程分析
欢迎喜欢深入了解推荐系统和mahout的兄弟加入群 推荐系统之Mahout 135918911 剖析mahout脚本 mahout 位于$MAHOUT_HOME/bin目录下,是所有mahout调用的入口。主要会做各类环境变量的设置。MAHOUT_JAVA_HOME:指定java的执行路劲,会覆盖$JAVA_HOMEMAHOUT_HEAPSIZE :JA...2013-05-28 22:11:20 · 124 阅读 · 0 评论 -
mahout推荐引擎相似度计算之皮尔逊相关性
欢迎喜欢深入了解推荐系统和mahout的兄弟加入群 推荐系统之Mahout 135918911 在讲解皮尔逊相关性之前我们先讲解一下z分数 z分数(z-score),也叫标准分数(standard score)是一个分数与平均数的差再除以标准差的过程。z分数可以回答这样一个问题:"一个给定分数距离平均数多少个标准差?"在平均数之上的分数会得到一个正的标准分数,在平均数之...2013-05-28 22:15:49 · 344 阅读 · 0 评论 -
MahoutDriver运作机制-mahout源码学习及总结
欢迎喜欢深入了解推荐系统和mahout的兄弟加入群 推荐系统之Mahout 135918911 mahout入口类MahoutDriver 如果我们想要研究MahoutDriver的源码,没有什么比测试类更好的了,下面我们看一下测试类 public final class MahoutDriverTest { //测试MahoutDriver.m...2013-05-28 22:19:01 · 157 阅读 · 0 评论 -
mahout0.7成功编译总结
欢迎喜欢深入了解推荐系统和mahout的兄弟加入群 推荐系统之Mahout 135918911 一直在学习mahout,工作中使用的是0.7跑算法,进行测试,但是在使用maven导入eclipse中构建的时候出现了问题,首先由于m2e的lifeStyle覆盖问题,两个插件不能使用,如下图 m2e插件现在已经被eclipse托管,在看eclipse官方网站看过...2013-07-05 22:14:32 · 198 阅读 · 0 评论 -
hive reduce资源数过多导致集群内资源堵塞方案解决
我们先看一看map中对reduce个数产生影响的两个参数hive.exec.reducers.bytes.per.reducer(每个reduce任务处理的数据量,默认为1000^3=1G) hive.exec.reducers.max(每个任务最大的reduce数,默认为999)hive计算reducer数的公式很简单N=min(参数2,总输入数据量/参数1) ,即如果reduce的输...2013-09-05 10:01:58 · 775 阅读 · 0 评论