机器学习
文章平均质量分 82
wbj0110
这个作者很懒,什么都没留下…
展开
-
Mahout – 机器学习
wget http://mirrors.ustc.edu.cn/apache/mahout/0.8/mahout-distribution-0.8.tar.gztar -xzvf mahout-distribution-0.8.tar.gzcd mahout-distribution-0.8sudo vi /etc/profile增加: export PATH...原创 2013-12-03 09:43:24 · 98 阅读 · 0 评论 -
使用mahout做海量数据关联规则挖掘
mahout是一个基于hadoop的分布式数据挖掘开源项目(mahout本来是指一个骑在大象上的人)。掌握了关联规则的基本算法和使用,加上分布式关联规则挖掘后,就可以处理基本的关联规则挖掘工作了,实践中只需要把握业务,理解数据便可游刃有余。安装mahout 骑在大象上的侠士必然需要一头雄纠纠的大象,不过本文不解绍大象hadoop,所以我假定已经安装好了hadoop,关于h...原创 2014-06-21 18:47:27 · 143 阅读 · 0 评论 -
决策树算法
机器学习中,决策树是一个预测模型;它代表的是对象属性值与对象值之间的一种映射关系。树中每个节点表示某个对象,每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应具有上述属性值的子对象。决策树仅有单一输出;若需要多个输出,可以建立独立的决策树以处理不同输出。从数据产生决策树的机器学习技术叫做决策树学习, 通俗说就是决策树。决策树学习也是数据挖掘中一个普通的方法。在这里,每个决策树都表...原创 2014-06-23 09:27:00 · 117 阅读 · 0 评论 -
决策树算法总结
参考:《机器学习》Tom版 以及http://blog.csdn.net/v_july_v/article/details/7577684一、简介决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建...原创 2014-06-23 09:29:46 · 165 阅读 · 0 评论 -
算法杂货铺——分类算法之决策树(Decision tree)
3.1、摘要 在前面两篇文章中,分别介绍和讨论了朴素贝叶斯分类与贝叶斯网络两种分类算法。这两种算法都以贝叶斯定理为基础,可以对分类及决策问题进行概率推断。在这一篇文章中,将讨论另一种被广泛使用的分类算法——决策树(decision tree)。相比贝叶斯算法,决策树的优势在于构造过程不需要任何领域知识或参数设置,因此在实际应用中,对于探测式的知识发现,决策树更加适用。3.2、...原创 2014-06-24 15:16:24 · 127 阅读 · 0 评论 -
Comparing Document Classification Functions of Lucene and Mahout
Starting with version 4.2, Lucene provides a document classification function. In this article, we will use the same corpus to perform document classification functions of both Lucene and Mahout to ...原创 2014-06-26 09:55:38 · 246 阅读 · 0 评论 -
智能推荐系统开发中的十个关键注意点
亚马逊的CEO Jeff Bezos曾经说过,他的梦想是“如果我有100万个用户,我就要为他们做100万个亚马逊网站”。智能推荐系统承载的就是这个梦想,即通过数据挖掘技术,为每一个用户实现个性化的推荐结果,让每个用户更便捷的获取信息。为了实现这个梦想,过去十余年间,无数顶尖技术专家和工程师投身于推荐算法和技术的研究与应用中,很多优秀的方法被提出,很多技术难题被攻克。在今天的互联网应用中,越来越...原创 2014-06-26 09:56:01 · 196 阅读 · 0 评论 -
Mahout构建图书推荐系统
前言本文是Mahout实现推荐系统的又一案例,用Mahout构建图书推荐系统。与之前的两篇文章,思路上面类似,侧重点在于图书的属性如何利用。本文的数据在自于Amazon网站,由爬虫抓取获得。目录项目背景需求分析数据说明算法模型程序开发1. 项目背景Amazon是最早的电子商务网站之一,以网上图书起家,最后发展成为音像,电子消费品,游戏,生活用品等的...原创 2014-06-27 10:09:48 · 111 阅读 · 0 评论 -
分类算法评价
一、引言 分类算法有很多,不同分分类算法又用很多不同的变种。不同的分类算法有不同的特定,在不同的数据集上表现的效果也不同,我们需要根据特定的任务进行算法的选择,如何选择分类,如何评价一个分类算法的好坏,前面关于决策树的介绍,我们主要用的正确率(accuracy)来评价分类算法。 正确率确实是一个很好很直观的评价指标,但是有时候正确率高并不能代表一个算法就好。比如某个地区某天地震的预...原创 2014-06-27 10:11:27 · 139 阅读 · 0 评论 -
mahout关联规则源码分析 Part 1
最近看了关联规则的相关算法,着重看了mahout的具体实现,mahout官网上面给出了好多算法,具体网址如下:https://cwiki.apache.org/confluence/display/MAHOUT/Parallel+Frequent+Pattern+Mining 。先说下命令行运行关联规则,关联规则的算法在mahout-core-0,7.jar包下面,命令行运行如下: ...原创 2014-06-30 09:33:57 · 131 阅读 · 0 评论 -
Apache Mahout 简介
当研究院和企业能获取足够的专项研究预算之后,能从数据和用户输入中学习的智能应用程序将变得更加常见。人们对机器学习技巧(比如说集群、协作筛选和分 类)的需求前所未有地增长,无论是查找一大群人的共性还是自动标记海量 Web 内容。Apache Mahout 项目旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout 的创始者 Grant Ingersoll 介绍了机器学习的基本概念,并演示了...原创 2014-06-30 09:35:32 · 153 阅读 · 0 评论 -
Confusion Matrix
A confusion matrix (Kohavi and Provost, 1998) contains information about actual and predicted classifications done by a classification system. Performance of such systems is commonly evaluated using ...原创 2014-07-03 09:54:11 · 186 阅读 · 0 评论 -
隐马尔可夫模型
百科 马尔科夫模型 隐马尔科夫模型 隐马尔可夫模型 (Hidden Markov Model,HMM) 最初由 L. E. Baum 和其它一些学者发表在一系列的统计学论文中,随后在语言识别,自然语言处理以及生物信息等领域体现了很大的价值。平时,经常能接触到涉及 HMM 的相关文章,一直没有仔细研究过,都是蜻蜓点水,因此,想花一点时间梳理下,加深理解,在此特别感谢 5...原创 2014-07-07 08:45:22 · 130 阅读 · 0 评论 -
语义分析的一些方法(一)(转)
语义分析,本文指运用各种机器学习方法,挖掘与学习文本、图片等的深层次概念。wikipedia上的解释:In machine learning, semantic analysis of a corpus is the task of building structures that approximate concepts from a large set of documents(or ...原创 2015-02-11 11:10:31 · 2566 阅读 · 0 评论 -
语义分析的一些方法(二)
2 文本语义分析前面讲到一些文本基本处理方法。一个文本串,对其进行分词和重要性打分后(当然还有更多的文本处理任务),就可以开始更高层的语义分析任务。2.1 Topic Model首先介绍主题模型。说到主题模型,第一时间会想到pLSA,NMF,LDA。关于这几个目前业界最常用的主题模型,已经有相当多的介绍了,譬如文献[60,64]。在这里,主要想聊一下主题模型的应用以及最新进展(考虑...原创 2015-02-11 13:52:10 · 1841 阅读 · 0 评论 -
语义分析的一些方法(三)
3 图片语义分析3.1 图片分类图片分类是一个最基本的图片语义分析方法。基于深度学习的图片分类传统的图片分类如下图所示,首先需要先手工提取图片特征,譬如SIFT, GIST,再经由VQ coding和Spatial pooling,最后送入传统的分类模型(例如SVM等)。图23. 传统图片分类流程图传统方法里,人工特征提取是一个巨大的消耗性工作。而随着深度学习的进展...原创 2015-02-11 13:54:35 · 1867 阅读 · 0 评论 -
使用mahout fpgrowth算法求关联规则
首先,这篇文章的内容大部分取自国外一篇博客Finding association rules with Mahout Frequent Pattern Mining,写这个出于几个原因,一 原文是英文的;二该博客貌似还被墙了,反正我是用了goagent才看到的;三 我简化了其实验内容,单纯的用数字表示item了。 首先是实验环境jdk >= 1.6mavenhado...原创 2014-06-21 18:47:11 · 131 阅读 · 0 评论 -
关联规则二项集hadoop实现
近期看mahout的关联规则源码,颇为头痛,本来打算写一个系列分析关联规则的源码的,但是后面看到有点乱了,可能是稍微有点复杂吧,所以就打算先实现最简单的二项集关联规则。算法的思想还是参考上次的图片:这里实现分为五个步骤:针对原始输入计算每个项目出现的次数;按出现次数从大到小(排除出现次数小于阈值的项目)生成frequence list file;针对原始输入的事务进行...原创 2014-06-18 12:22:53 · 132 阅读 · 0 评论 -
分布式机器学习(一):前言(转)
从毕业加入Google开始做分布式机器学习,到后来转战腾讯广告业务,至今已经七年了。我 想说说我见到的故事和我自己的实践经历。这段经历给我的感觉是:虽然在验证一个新的并 行算法的正确性的时候,我们可以利用现有框架,尽量快速实现,但是任何一个有价值的机 器学习思路,都值得拥有自己独特的架构。所以重点在有一个分布式操作系统,方便大家开 发自己需要的架构(框架),来支持相应的算法。如果你关注大数据,...原创 2014-05-16 16:03:13 · 179 阅读 · 0 评论 -
机器学习算法
一、分类算法(一)贝叶斯 (二)决策树ID3、C4.5(C5.0)、CART、PUBLIC、SLIQ和SPRINT(三)神经网络 (四)SVM (五)KNN (六)Bagging 和Boosting (七)最大熵(八)Logistic 回归(九)感知机二、聚类算法(一)基于划分(K-means、K-medoids、Clara、...原创 2014-05-17 10:41:39 · 127 阅读 · 0 评论 -
朴素贝叶斯分类
贝叶斯定理 英国数学家贝叶斯(Thomas Bayes)曾经给出如下定理: P(A)表示A事件发生的概率,P(B)表示B事件发生的概率;P(A|B)表示在B事件已经确定发生的情况下,发生A事件的概率;P(B|A)表示在A事件已经确定发生的情况下,发生B事件的概率;P(AB)表示AB事件同时发生的概率。所以: P(A)P(B|A)=P(AB)=P(B)P(A|B) 也就是说,A事件发生的概率乘以...原创 2014-06-02 13:01:58 · 76 阅读 · 0 评论 -
Naive Bayes text classification
The first supervised learning method we introduce is the multinomial Naive Bayes or multinomial NB model, a probabilistic learning method. The probability of a document being in class is computed ...原创 2014-06-03 10:38:50 · 403 阅读 · 0 评论 -
Best Machine Learning Resources for Getting Started
This was a really hard post to write because I want it to be really valuable. I sat down with a blank page and asked the really hard question of what are the very best libraries, courses, papers and...原创 2014-06-08 23:09:06 · 157 阅读 · 0 评论 -
奇异值分解SVD应用——LSI
潜在语义索引(Latent Semantic Indexing)是一个严重依赖于SVD的算法,本文转载自之前吴军老师《数学之美》和参考文献《机器学习中的数学》汇总。————————————在自然语言处理中,最常见的两类的分类问题分别是,将文本按主题归类(比如将所有介绍亚运会的新闻归到体育类)和将词汇表中的字词按意思归类(比如将各种体育运动的名称个归成一类)。这两种分类问题都可用通过矩阵...原创 2014-06-10 10:14:09 · 121 阅读 · 0 评论 -
关联规则挖掘基本概念与Aprior算法
关联规则挖掘在电商、零售、大气物理、生物医学已经有了广泛的应用,本篇文章将介绍一些基本知识和Aprori算法。 啤酒与尿布的故事已经成为了关联规则挖掘的经典案例,还有人专门出了一本书《啤酒与尿布》,虽然说这个故事是哈弗商学院杜撰出来的,但确实能很好的解释关联规则挖掘的原理。我们这里以一个超市购物篮迷你数据集来解释关联规则挖掘的基本概念:表中的每一行代表一次购买清单(注意你购买十盒牛...原创 2014-06-10 10:14:26 · 137 阅读 · 0 评论 -
关联规则FpGrowth算法
Aprori算法利用频繁集的两个特性,过滤了很多无关的集合,效率提高不少,但是我们发现Apriori算法是一个候选消除算法,每一次消除都需要扫描一次所有数据记录,造成整个算法在面临大数据集时显得无能为力。今天我们介绍一个新的算法挖掘频繁项集,效率比Aprori算法高很多。 FpGrowth算法通过构造一个树结构来压缩数据记录,使得挖掘频繁项集只需要扫描两次数据记录,而且该算法不需要生成候...原创 2014-06-10 10:14:54 · 202 阅读 · 0 评论 -
mahout
preface运行自带的例子来进行测试第1章 使用kmeans算法实例(1)http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data点击链接,下载数据集synthetic_control.data。将数据集synthetic_control...原创 2014-06-10 10:15:35 · 149 阅读 · 0 评论 -
关联分析(购物篮)与R语言
世界上的万事万物都有着千丝万缕的联系,我们要善于发现这种关联关联分析要解决的主要问题是:一群用户购买了很多产品之后,哪些产品同时购买的几率比较高?买了A产品的同时买哪个产品的几率比较高?可能是由于最初关联分析主要是在超市应用比较广泛,所以又叫“购物篮分析”,英文简称为MBA,当然此MBA非彼MBA,意为Market Basket Analysis。(1)普通问题:如果在研究的问题中,一个用户购...原创 2014-06-10 10:16:03 · 621 阅读 · 0 评论 -
关联规则评价
前面我们讨论的关联规则都是用支持度和自信度来评价的,如果一个规则的自信度高,我们就说它是一条强规则,但是自信度和支持度有时候并不能度量规则的实际意义和业务关注的兴趣点。一个误导我们的强规则 看这样一个例子,我们分析一个购物篮数据中购买游戏光碟和购买影片光碟之间的关联关系。交易数据集共有10,000条记录,其中购买6000条包含游戏光碟,7500条包含影片光碟,4000条既包含游戏...原创 2014-06-11 09:05:59 · 260 阅读 · 0 评论 -
贝叶斯方法的m-估计
为什么要有m-估计?当我们通过在全部事件的基础上观察某事件出现的比例来估计概率时,例如:P=nc/n.,其中nc为该类别中的样本数量,n为总样本数量。若n=5,当P=0.6时,则nc为3。多数情况下该比例是对概率的一个良好的估计。但当nc很小时估计会较差,例如:P=0.08,样本中同样有5个样例,那么对于nc最可能的取值只有0,。这会导致两个问题:1、nc/n产生了一个有偏的过低估计概...原创 2014-06-11 09:06:17 · 230 阅读 · 0 评论 -
mahout源码分析之贝叶斯算法
整个流程包括数据处理部分和分类算法部分。数据处理部分对语料库进行处理生成算法能执行的标准格式。分类算法部分的实现被分作三个部分:训练器(The Trainer)、数据模型(The Model)、分类器(The Classifier)。数据预处理PrepareTwentyNewsgroupsfor(dir in categoryDirectorys)BayesFileFormat...原创 2014-06-11 09:06:37 · 123 阅读 · 0 评论 -
决策树分类算法
介绍分类问题,主要介绍决策树算法、朴素贝叶斯、支持向量机、BP神经网络、懒惰学习算法、随机森林与自适应增强算法、分类模型选择和结果评价。总共7篇,欢迎关注和交流。 这篇先介绍分类问题的一些基本知识,然后主要讲述决策树算法的原理、实现,最后利用决策树算法做一个泰坦尼克号船员生存预测应用。一、分类基本介绍 物以类聚,人以群分,分类问题只古以来就出现我们的生活中。分类是数据挖掘中一个...原创 2014-06-16 11:29:19 · 394 阅读 · 0 评论 -
分类算法之朴素贝叶斯分类(Naive Bayesian classification)
1.1、摘要 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本文作为分类算法的第一篇,将首先介绍分类问题,对分类问题进行一个正式的定义。然后,介绍贝叶斯分类算法的基础——贝叶斯定理。最后,通过实例讨论贝叶斯分类中最简单的一种:朴素贝叶斯分类。1.2、分类问题综述 对于分类问题,其实谁都不会陌生,说我们每个人每天都在执行分类操作...原创 2014-06-18 12:20:01 · 115 阅读 · 0 评论 -
Jubatus: 分布式在线机器学习框架
Jubatus http://jubat.us/en/overview.html 是一个面向大数据数据流的分布式在线机器学习的开源框架,和storm有些类似,但是从介绍上来看,它提供了更多的功能。 Jubatus认为未来的数据分析平台应该同时向三个方向展开:处理更大的数据,深层次的分析和实时处理;而当前还没有一种能够处理不断生成的流式大数据的水平可扩展的分布式架构。Hadoop的mapre...原创 2014-04-25 07:55:35 · 225 阅读 · 0 评论