- 博客(6)
- 资源 (3)
- 收藏
- 关注
原创 Mahout的BreimanExample例子分析
Mahout的BreimanExample例子执行了 Leo Breiman: Random Forests. Machine Learning 45(1): 5-32 (2001)这篇论文的测试。 对它的分析我分为3个部分 - 森林生成的Iteration部分 - BreimanExample的测试执行部分 - 命令行执行部分Iteration部分迭代函数如下,对于训练数据集
2015-08-29 16:23:12 1366
原创 Mahout推荐系统引擎RecommenderEvaluator源码解析
在http://blog.csdn.net/jianjian1992/article/details/47304337里边有关于推荐系统的完整代码,其中有一个评价器RecommenderEvaluatorRecommenderEvaluator evalutor = new AverageAbsoluteDifferenceRecommenderEvaluator();System.out.
2015-08-11 20:30:32 2082
原创 Mahout推荐系统引擎UserCF中的IRStats部分源码解析
Mahout提供推荐系统引擎是模块化的,分为5个主要部分组成: 1. 数据模型 2. 相似度算法 3. 近邻算法 4. 推荐算法 5. 算法评分器 今天好好看了看关于推荐算法以及算法评分部分的源码。 以http://blog.csdn.net/jianjian1992/article/details/46582713 里边数据的为例进行实验。整体流程的代码如下,依
2015-08-07 11:55:27 2687
原创 Mahout安装与第一次使用--用户协同过滤
记录mahout的安装与使用,并用单机mahout的UserCF进行了详细说明来熟悉mahout编程。
2015-08-05 17:04:58 1402 1
原创 MapReduce--倒排索引
文档倒排算法简介Inverted Index(倒排索引)是目前几乎所有支持全文检索的搜索引擎都要依赖的一个数据结构。基于索引结构,给出一个词(term),能取得含有这个term的文档列表(the list of documents) Web Search中的问题主要分为三部分:crawling(gathering web content) ,网页爬虫,收集数据indexing(construc
2015-08-04 10:59:47 4814 1
原创 MapRed编程自定义Partitioner
接着 mapreduce–使用自定义类做value 继续做实验,这次试一试Partitioner的效果。 根据之前实验的数据,key值是数据中第二列的电话号码,我想把它们根据运营商不同分到不同的组,也即以13,15,18,以及其他开头的号码分别分到一组中。 那么我应该加一个Partitioner控制shuffle阶段的分组过程。MyPartitioner扩展Partitioner类 Par
2015-08-01 10:46:08 516
Hadoop系统安装运行与程序开发
2015-06-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人