Mahout推荐算法之ItemBased

基于item的推荐是常用并且高效的一种推荐方式,最重要的是它可以做实事推荐。...
阅读(2496) 评论(0)

Mahout推荐算法之SlopOne

Mahout推荐算法之SlopOne...
阅读(2019) 评论(0)

我是怎样阅读技术论文的

需要通过paper获取知识,找到新的解决思路是很常见的办法。但是在工作中由于压力常常会随便找一些paper读一些,做少量的思考就开始做了,这样往往不能对研究的对象不能有一个整体的看法,做了也仅仅是做了。描绘研究对象概念的内涵和外延,描绘一个知识树,然后再去研究我们需要的那个点。下面给出了我自己的一点小经验。...
阅读(2032) 评论(5)

社会化网络分析

节点中心性是指网络中每个词在网络中处于什么地位。中心势反映整个词网中各个节点的差异性程度。由于计算方法的不同,节点中心度分为点度中心度,中间中心度和接近中心度。网络的中心势也分为点度中心势、中间中心势和接近中心势。   点度中心性 中间中心性 接近中心性 绝对点度中心度...
阅读(969) 评论(2)

基于领域相关度和领域一致度的领域术语抽取实现

需要准备几个领域,每个领域准备大量的文本。比如:军事、科技、体育、财经、汽车、房产等等。 有一些数据是不完整的,甚至是脏数据,需要在数据准备好之后做数据清洗,删除包含乱码的文本、删除英文文本、删除内容重复的文档,删除包含大量HTML标签的文档,删除内容中大量重复的内容(如:预料是新闻,可能会每篇文档中都包含“中新网北京1月23日电”之类的内容)。    每一个子文件夹中都包含该领域的文档,分别...
阅读(790) 评论(0)

地球物理学部分术语共现图

地球物理学部分术语共现图...
阅读(921) 评论(0)

三国人物共现网络

三国部分人物共现图...
阅读(1278) 评论(2)

Mahout 模糊kmeans

FCM 算法用一个Job寻找cluster的中心点。在map的初始化节点,加载初始化(或上一轮迭代的结果)中心点。在map中计算point 和每一个簇的亲和度。在combiner计算同一个cluster的参数,该过程只能计算同一cluster的局部信息。在reduce中首先计算同一个cluster的全局参数,然后计算该cluster是否收敛,输出cluster。...
阅读(1724) 评论(0)

Mahout kmeans聚类

K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。Mahout kmeans MapReduce实现的原理和上述的一致,值得注意的是,Mahout将数据存储在HDFS,用MapReduce做批量并行的计算。在做kmeans之前,需要将文本用Mahout向量化模块工具做向量化。计算过程主要分为三个步骤:初始中心选取,寻找簇中心,划分数...
阅读(2438) 评论(1)

Mahout canopy聚类

Canopy有消除孤立点的作用,而K-means在这方面却无能为力。建立canopies之后,可以删除那些包含数据点数目较少的canopy,往往这些canopy是包含孤立点的。根据canopy内点的数目,来决定聚类中心数目k,这样效果比较好。 在执行Canopy之前需要用将文本合并,然后用Mahout文本向量化模块计算TFIDF,作为文本向量。向量化之后再用Canopy算法聚类。...
阅读(1540) 评论(0)

Mahout LDA 聚类

Dirichlet聚类是一种基于模型的聚类方法,其基本思想是初始化一些模型,并按不同比重混合起来,然后我们把数据分配到各个模型中,根据当前划分更新模型参数,不断重复数据分配和参数更新的过程,直到设定的最大迭代次数,这时得到了最终的模型参数,同时也完成了聚类任务。...
阅读(2445) 评论(0)

Mahout fp-growth

Apriori算法的一个主要瓶颈在于,为了获得较长的频繁模式,需要生成大量的候选短频繁模式。FP-Growth算法是针对这个瓶颈提出来的全新的一种算法模式。目前,在数据挖掘领域,Apriori和FP-Growth算法的引用次数均位列三甲。参看论文《Mining Frequence PatternsWithout Candidate Generation》 。 FP的全称是Frequent Pattern,在算法中使用了一种称为频繁模式树(Frequent Pattern Tree)的数据结构。FP-tre...
阅读(1960) 评论(0)

Mahout朴素贝叶斯文本分类

Mahout贝叶斯分类器按照官方的说法,是按照《Tackling the PoorAssumptions of Naive Bayes Text Classiers》实现的。分为三个模块:训练、测试和分类。该文档首先简要介绍朴素贝叶斯的基本原理,然后介绍MapReduce实现的思路。...
阅读(2122) 评论(0)

Mahout决策森林

在机器学习中,随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。Leo Breiman和Adele Cutler发展出推论出随机森林的算法。 而 "Random Forests" 是他们的商标。 这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林(random decision forests)而来的。这个方法则是结合 Breimans 的 "Bootstrapaggregating" 想法和 Ho 的"randomsubspace method...
阅读(1459) 评论(0)

Mahout文本向量化

在文本聚类之前,首先要做的是文本的向量化。该过程涉及到分词,特征抽取,权重计算等等。Mahout 提供了文本向量化工具。由于Mahout 向量化算法要处理的文件是Hadoop SequenceFile ,需要将普通的文本文件转成SequenceFile格式,然后在向量化。 SequenceFilesFromDirectory.main(args);...
阅读(1468) 评论(0)

词的向量表示

转自 http://licstar.net/archives/328 Posted on 2013 年 7 月 29 日   这篇博客是我看了半年的论文后,自己对 Deep Learning 在 NLP 领域中应用的理解和总结,在此分享。其中必然有局限性,欢迎各种交流,随便拍。   Deep Learning 算法已经在图像和音频领域取得了惊人的成果,但是在 NLP 领域中尚未见到如此激动人...
阅读(3830) 评论(0)

机器翻译领域的新突破

#研究分享#【机器翻译领域的新突破】谷歌的Tomas Mikolov团队开发了一种词典和术语表的自动生成技术,能够把一种语言转变成另一种语言。该技术利用数据挖掘来构建两种语言的结构模型,然后加以对比。每种语言词语之间的关系集合即“语言空间”,可以被表征为数学意义上的向量集合。在向量空间内,不同的语言享有许多共性,只要实现一个向量空间向另一个的映射和转换,语言翻译即可实现。该技术效果非常不错,对英语...
阅读(711) 评论(0)

Boosting和Bagging

在生成集成中个体网络方面,最重要的技术是Boosting [Sch90] 和Bagging [Bre96]。 Boosting最早由Schapire [Sch90] 提出,Freund [Fre95] 对其进行了改进。通过这种方法可以产生一系列神经网络,各网络的训练集决定于在其之前产生的网络的表现,被已有网络错误判断的示例将以较大的概率出现在新网络的训练集中。这样,新网络将能够很好地处理对已有网...
阅读(595) 评论(0)

join

在oracle的SQL语句常用的连接有内连接(inner join),外连接(outer join)等,内连接又包括等值连接,非等值连接,自连接;而外连接又分为左连接和右连接。其中默认的是内连接的等值连接。      为了方便我们创建两张最简易的表A、B,具体的表结构参看下面,来分析内连接与外连接的区别                                 图1      ...
阅读(537) 评论(0)

Hadoop 的 TotalOrderPartitioner

Partition所处的位置 Partition位置 Partition主要作用就是将map的结果发送到相应的reduce。这就对partition有两个要求: 1)均衡负载,尽量的将工作均匀的分配给不同的reduce。 2)效率,分配速度一定要快。 Mapreduce提供的Partitioner Mapreduce默认的partitioner是...
阅读(702) 评论(0)
245条 共13页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:231069次
    • 积分:3394
    • 等级:
    • 排名:第9850名
    • 原创:81篇
    • 转载:159篇
    • 译文:5篇
    • 评论:16条
    博客专栏
    最新评论