![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 82
jianjian1992
hahaha
展开
-
Mahout推荐系统引擎RecommenderEvaluator源码解析
在http://blog.csdn.net/jianjian1992/article/details/47304337里边有关于推荐系统的完整代码,其中有一个评价器RecommenderEvaluatorRecommenderEvaluator evalutor = new AverageAbsoluteDifferenceRecommenderEvaluator();System.out.原创 2015-08-11 20:30:32 · 2077 阅读 · 0 评论 -
Mahout推荐系统引擎UserCF中的IRStats部分源码解析
Mahout提供推荐系统引擎是模块化的,分为5个主要部分组成: 1. 数据模型 2. 相似度算法 3. 近邻算法 4. 推荐算法 5. 算法评分器 今天好好看了看关于推荐算法以及算法评分部分的源码。 以http://blog.csdn.net/jianjian1992/article/details/46582713 里边数据的为例进行实验。整体流程的代码如下,依原创 2015-08-07 11:55:27 · 2651 阅读 · 0 评论 -
Mahout安装与第一次使用--用户协同过滤
记录mahout的安装与使用,并用单机mahout的UserCF进行了详细说明来熟悉mahout编程。原创 2015-08-05 17:04:58 · 1359 阅读 · 1 评论 -
mahout的并行随机森林是怎样创建的
我挺好奇mahout是怎样分布式建立一个随机森林的,所以特意看看它的BuildForest源码,看看里边的mapreduce是怎样实现的。还有个问题也挺让我好奇的,就是随机森林是怎么保存的呢?我看的是0.9版本的mahout。原创 2015-09-02 21:26:48 · 2299 阅读 · 0 评论 -
Mahout的BreimanExample例子分析
Mahout的BreimanExample例子执行了 Leo Breiman: Random Forests. Machine Learning 45(1): 5-32 (2001)这篇论文的测试。 对它的分析我分为3个部分 - 森林生成的Iteration部分 - BreimanExample的测试执行部分 - 命令行执行部分Iteration部分迭代函数如下,对于训练数据集原创 2015-08-29 16:23:12 · 1349 阅读 · 0 评论 -
hdfs shell命令记录
hdfs的shell命令原创 2015-07-25 20:46:38 · 1525 阅读 · 0 评论 -
MapReduce--倒排索引
文档倒排算法简介Inverted Index(倒排索引)是目前几乎所有支持全文检索的搜索引擎都要依赖的一个数据结构。基于索引结构,给出一个词(term),能取得含有这个term的文档列表(the list of documents) Web Search中的问题主要分为三部分:crawling(gathering web content) ,网页爬虫,收集数据indexing(construc原创 2015-08-04 10:59:47 · 4799 阅读 · 1 评论 -
mapreduce--使用自定义类做value
在mapreduce编程中,有挺多实现了Comparable, Writable接口的内置变量类型,比如 Text, IntWritable,LongWritable等等。 这次我要自己定义一个类,将它用作设计自定义类MyData按照需求,这个类应该有4个变量,分别记录手机号,上行流量,下行流量以及总流量。 这个类需要实现Writable接口,所以需要实现两个函数:write函数 ,将MyD原创 2015-07-30 21:32:55 · 1817 阅读 · 0 评论 -
MapRed编程自定义Partitioner
接着 mapreduce–使用自定义类做value 继续做实验,这次试一试Partitioner的效果。 根据之前实验的数据,key值是数据中第二列的电话号码,我想把它们根据运营商不同分到不同的组,也即以13,15,18,以及其他开头的号码分别分到一组中。 那么我应该加一个Partitioner控制shuffle阶段的分组过程。MyPartitioner扩展Partitioner类 Par原创 2015-08-01 10:46:08 · 512 阅读 · 0 评论 -
Maven+Eclipse+Hadoop第一个WordCount
之前一直都是在windows下的Eclipse写hadoop,这次打算在Ubuntu下写一次,采用Maven来创建和管理工程。Maven是一种挺方便的工程管理插件吧,通过写依赖项属性便可以自动加入需要的各个依赖库文件,也让Hadoop程序能够直接在Console这里运行,不需要导出jar包到命令行中去,方便调试代码啦!真是一段辛苦的经历呀,碰到了各种各样的问题,记录一下啦!原创 2015-07-19 20:15:37 · 5820 阅读 · 0 评论 -
hadoop编程----寻找社交网络图中的三角关系
实验背景图的三角形计数问题是一个基本的图计算问题,是很多复杂网络分析(比如社交网络分析)的基础。目前图的三角形计数问题已经成为了Spark 系统中GraphX 图计算库所提供的一个算法级API。本次实验任务就是要在Hadoop 系统上实现Twitter 社交网络图的三角形计数任务。有向图转化为无向图如下图所示,社交网络中的关注关系一般为有向图,这里需要转化为无向图。转化思路为:如果IF (A->B)原创 2015-09-20 20:21:17 · 4094 阅读 · 0 评论