机器学习
文章平均质量分 92
jiutianhe
这个作者很懒,什么都没留下…
展开
-
支持向量机通俗导论(理解SVM的三层境界)
http://blog.csdn.net/v_july_v/article/details/7624837http://www.cnblogs.com/vivounicorn/archive/2011/06/01/2067496.html转载 2012-10-04 18:53:51 · 541 阅读 · 0 评论 -
如何选择机器学习分类器?
你知道如何为你的分类问题选择合适的机器学习算法吗?当然,如果你真正关心准确率,那么最佳方法是测试各种不同的算法(同时还要确保对每个算法测试不同参数),然后通过交叉验证选择最好的一个。但是,如果你只是为你的问题寻找一个“足够好”的算法,或者一个起点,这里有一些我这些年发现的还不错的一般准则。 你的训练集有多大? 如果训练集很小,那么高偏差/低方差分类器(如朴素贝叶斯分类器)要优于转载 2014-10-15 10:58:26 · 798 阅读 · 0 评论 -
用Maven构建Mahout项目
前言基于Hadoop的项目,不管是MapReduce开发,还是Mahout的开发都是在一个复杂的编程环境中开发。Java的环境问题,是困扰着每个程序员的噩梦。Java程序员,不仅要会写Java程序,还要会调linux,会配hadoop,启动hadoop,还要会自己运维。所以,新手想玩起Hadoop真不是件简单的事。不过,我们可以尽可能的简化环境问题,让程序员只关注于写程序。特别是像转载 2014-10-15 15:34:42 · 4078 阅读 · 2 评论 -
Mahout推荐算法API详解
前言用Mahout来构建推荐系统,是一件既简单又困难的事情。简单是因为Mahout完整地封装了“协同过滤”算法,并实现了并行化,提供非常简单的API接口;困难是因为我们不了解算法细节,很难去根据业务的场景进行算法配置和调优。本文将深入算法API去解释Mahout推荐算法底层的一些事。目录Mahout推荐算法介绍算法评判标准:召回率与准确率Recommender.ja转载 2014-10-16 17:58:08 · 1063 阅读 · 0 评论 -
从源代码剖析Mahout推荐引擎
1. Mahout推荐引擎概况Mahout的推荐引擎,要从org.apache.mahout.cf.taste包说起。packages的说明:common: 公共类包括,异常,数据刷新接口,权重常量eval: 定义构造器接口,类似于工厂模式model: 定义数据模型接口neighborhood: 定义近邻算法的接口recommender: 定义推荐算法的转载 2014-10-17 15:52:13 · 2439 阅读 · 0 评论 -
win7下mahout-0.9安装
1.下载mahout-distribution-0.9-src.tar并解压2.打开cmd,并一路cd 到该目录3.执行mvn clean4.执行mvn install -Dmaven.test.skip=true5.mvn -Declipse.workspace= eclipse:add-maven-repo6.mvn eclipse:eclipse原创 2014-10-16 16:09:51 · 2206 阅读 · 1 评论 -
庖丁分词的源码分析
在网上也看到了不少庖丁分词的使用说明,但是源码分析比较少。但是我也不想死板的一步步的把代码说一遍,这个多debug几次就ok了。我想说说比较关键或有意思的地方。1 庖丁只要是同一个配置文件就会是同一个庖丁对象,所以其实你可以放心的new。 2 庖丁的配置文件改变他是会去检查的,可以通过设置paoding.dic.detector.interval这个来设置检查的时间间隔。转载 2014-12-25 10:47:26 · 1000 阅读 · 0 评论 -
Classifier4J的中文支持
Classifier4J是一个轻量级的分类工具,支持贝叶斯分类、向量空间模型、信息摘要等。然而它却不支持中文,异常信息大致如下:Exception in thread "main" java.util.NoSuchElementException at java.util.HashMap$HashIterator.nextEntry(HashMap.java:813) at java.ut转载 2015-02-03 14:29:20 · 2409 阅读 · 0 评论 -
基于庖丁分词的TFIDF计算
通过近期研究测试,发现庖丁分词在中文分词中效果好一点,而TFIDF是词频计算中常用方法,关于TFIDF的计算过程就不详细说明了。直接上代码:package com.util;import java.io.*;import java.util.*;import java.util.Map.Entry;import net.paoding.analysis.analyzer.Pao原创 2014-12-12 16:19:15 · 1647 阅读 · 0 评论 -
从机器学习谈起
转载:点击打开链接在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能进一步介绍EasyPR的内核。当然,本文也面对一般读者,不会对阅读有相关的前提要求。 在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这篇非常转载 2014-12-31 17:39:24 · 940 阅读 · 0 评论 -
京东DNN Lab首席科学家:用深度学习搞定80%的客服工作
大数据催熟深度学习深度学习是模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释和处理各种数据,包括文本数据、图像数据和语音数据等。人工神经网络具有良好的学习能力和解决问题的能力,但传统神经网络一般只有两三层的神经网络,其有限的参数和计算单元,对复杂函数的表示能力有限,学习能力受到制约,特征的开发和筛选也极为耗费人力。包含多个隐藏层的深度学习模型则不一样,根据机器学习泰斗、多伦多转载 2014-12-31 17:43:20 · 2149 阅读 · 0 评论 -
探寻微博背后的大数据原理:微博推荐算法简述
接下来首先用一个图梳理下我们用到的方法和技术,然后再逐一介绍。 基础及关联算法 这一层算法的主要作用是为微博推荐挖掘必要的基础资源、解决推荐时的通用技术问题、完成必要的数据分析为推荐业务提供指导。 这一部分中常用的算法和技术如下: 分词技术与核心词提取 是微博内容推荐的基础,用于将微博内容转化为结构化向量,包括词语切分、词语信息标注、内转载 2014-10-15 10:26:01 · 4821 阅读 · 0 评论 -
机器学习常见算法分类汇总
机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家介绍,第一个方面是学习的方式,第二个方面是算法的类似性。 学习方式 根据数据类型的不同,对一个问题的建模有不同的方式。在机器学习或者人工智能领域,人们首先会考虑算法的学习方式。在机器学习领域,有几种主要的学习方式。将算法按照学习方式分类是一个不错的想法转载 2014-10-15 10:48:39 · 1003 阅读 · 0 评论 -
svmrank原理
机器学习分类过程中,如果遇到多个分类器表现差不多,想综合各个分类器的优势时,可以考虑多分类器投票,即VOTING的方法,也可以考虑learning to rank的方法优选偏重于正确分类标签的预测得分组合。下面简单总结一下使用svmrank进行集成学习的方法。首先把数据分为训练集、验证集、测试集,然后都进行特征提取和量化训练集(training):原始数据,每一列都是特征,转载 2014-09-22 15:52:28 · 9712 阅读 · 0 评论 -
归纳决策树ID3(Java实现)
先上问题吧,我们统计了14天的气象数据(指标包括outlook,temperature,humidity,windy),并已知这些天气是否打球(play)。如果给出新一天的气象指标数据:sunny,cool,high,TRUE,判断一下会不会去打球。table 1outlooktemperaturehumiditywindyplay转载 2014-09-16 09:52:31 · 1468 阅读 · 0 评论 -
朴素贝叶斯分类
先上问题吧,我们统计了14天的气象数据(指标包括outlook,temperature,humidity,windy),并已知这些天气是否打球(play)。如果给出新一天的气象指标数据:sunny,cool,high,TRUE,判断一下会不会去打球。table 1outlooktemperaturehumiditywindyplay转载 2014-09-16 09:51:50 · 950 阅读 · 0 评论 -
聚类算法之BIRCH(Java实现)
复制去Google翻译翻译结果转载 2014-09-16 09:54:56 · 2166 阅读 · 1 评论 -
协同过滤推荐算法
Collaborative Filtering Recommendation向量之间的相似度度量向量之间的相似度方法很多了,你可以用距离(各种距离)的倒数,向量夹角,Pearson相关系数等。皮尔森相关系数计算公式如下:分子是协方差,分子是两个变量标准差的乘积。显然要求X和Y的标准差都不能为0。因为,所以皮尔森相关系数计算公式还可以写成:当两个变量的线性关系增强时,转载 2014-09-16 09:57:43 · 730 阅读 · 0 评论 -
SVM速览
SVM速览SVM属于一种前馈神经网络,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势。对于两类分类问题,有训练样本{(X1,y1),(X2,y2),...,(Xn,yn)},y是分类标记,取值于+1和-1。a和b都可以作为分类超平面,但最优超平面只有一个,最优分类平面使间隔最大化。统一起来就是分离边缘可表示为,要使分离边缘最大化,就要使||W0||最转载 2014-09-16 09:58:09 · 932 阅读 · 0 评论 -
FP-Tree算法的实现
FP-Tree算法的实现在关联规则挖掘领域最经典的算法法是Apriori,其致命的缺点是需要多次扫描事务数据库。于是人们提出了各种裁剪(prune)数据集的方法以减少I/O开支,韩嘉炜老师的FP-Tree算法就是其中非常高效的一种。支持度和置信度严格地说Apriori和FP-Tree都是寻找频繁项集的算法,频繁项集就是所谓的“支持度”比较高的项集,下面解释一下支持度和置信度的概转载 2014-09-16 10:03:08 · 1500 阅读 · 0 评论 -
机器学习之开源库大总结
研究数据挖掘和机器学习有一段时间了,对数据挖掘来说,商用软件有SAS、 Clementine、Oracle数据挖掘组件等等;由于个人学习和版权、算法定制等问题,开源的数据挖掘与机器学习软件(库)目前也十分必需,现在就跟大家介绍下比较流行和常用的机器学习开源库。 以前在学校用过matlab,说实话真方便,通常一个模型只要几十行甚至十几行代码就能搞定,但是正版matlab较贵,而且不太适合商转载 2014-10-11 17:04:56 · 803 阅读 · 0 评论 -
TF-IDF及其算法
概念 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作原创 2014-11-13 15:48:03 · 1771 阅读 · 0 评论 -
机器学习算法与Python实践之(七)逻辑回归(Logistic Regression)
机器学习算法与Python实践之(七)逻辑回归(Logistic Regression) 机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学习算法。恰好遇见这本同样定位的书籍,所以就参考这本书的过程来学习了。转载 2014-10-11 16:58:01 · 1278 阅读 · 0 评论 -
文本分类,数据挖掘和机器学习
一。1。朴素贝叶斯算法(Naive Bayes) 贝叶斯算法关注的是文档属于某类别概率。文档属于某个类别的概率等于文档中每个词属于该类别的概率的综合表达式。而每个词属于该类别的概率又在一定程度上可以用这个词在该类别训练文档中出现的次数(词频信息)来粗略估计,因而使得整个计算过程成为可行的。使用朴素贝叶斯算法时,在训练阶段的主要任务就是估计这些值。朴素贝叶斯算法的公式只原创 2015-06-15 17:21:07 · 2085 阅读 · 0 评论