机器学习
hechenghai
已经不走技术路线了,可能没法回到大家的问题了,抱歉!
展开
-
从最大似然到EM算法浅解
http://blog.csdn.net/zouxy09/article/details/8537620从最大似然到EM算法浅解zouxy09@qq.comhttp://blog.csdn.net/zouxy09 机器学习十大算法之一:EM算法。能评得上十大之一,让人听起来觉得挺NB的。什么是NB啊,我们一般说某个人很NB,转载 2014-12-10 17:28:25 · 1026 阅读 · 0 评论 -
文本分类入门(二)文本分类的方法
文本分类入门(二)文本分类的方法文本分类问题与其它分类问题没有本质上的区别,其方法可以归结为根据待分类数据的某些特征来进行匹配,当然完全的匹配是不太可能的,因此必须(根据某种评价标准)选择最优的匹配结果,从而完成分类。因此核心的问题便转化为用哪些特征表示一个文本才能保证有效和快速的分类(注意这两方面的需求往往是互相矛盾的)。因此自有文本分类系统的那天起,就一直是对特征的不同选择主导着方法派转载 2015-10-05 20:52:57 · 1575 阅读 · 0 评论 -
文本分类入门(六)训练Part 3
SVM算法支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[10]。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习转载 2015-10-05 21:32:23 · 564 阅读 · 0 评论 -
文本分类入门(七)相关概念总结
学习方法:使用样例(或称样本,训练集)来合成计算机程序的过程称为学习方法[22]。监督学习:学习过程中使用的样例是由输入/输出对给出时,称为监督学习[22]。最典型的监督学习例子就是文本分类问题,训练集是一些已经明确分好了类别文档组成,文档就是输入,对应的类别就是输出。非监督学习:学习过程中使用的样例不包含输入/输出对,学习的任务是理解数据产生的过程 [22]。典型的非监督学习例子是聚类,转载 2015-10-05 21:37:02 · 433 阅读 · 0 评论 -
文本分类入门(番外篇)特征选择与特征权重计算的区别
文本分类入门(番外篇)特征选择与特征权重计算的区别 在文本分类的过程中,特征(也可以简单的理解为“词”)从人类能够理解的形式转换为计算机能够理解的形式时,实际上经过了两步骤的量化——特征选择阶段的重要程度量化和将具体文本转化为向量时的特征权重量化。初次接触文本分类的人很容易混淆这两个步骤使用的方法和各自的目的,因而我经常听到读者有类似“如何使用TFIDF做特征选择”或者“卡方检验量化权重后转载 2015-10-05 20:35:18 · 476 阅读 · 0 评论 -
文本分类入门(一)文本分类问题的定义
一个文本(以下基本不区分“文本”和“文档”两个词的含义)分类问题就是将一篇文档归入预先定义的几个类别中的一个或几个,而文本的自动分类则是使用计算机程序来实现这样的分类。通俗点说,就好比你拿一篇文章,问计算机这文章要说的究竟是体育,经济还是教育,计算机答不上就打它的屁屁(……)。注意这个定义当中着重强调的两个事实。第一,用于分类所需要的类别体系是预先确定的。例如新浪新闻的分类体系,Yahoo转载 2015-10-05 20:45:02 · 1660 阅读 · 0 评论 -
文本分类入门(三)统计学习方法
文本分类入门(三)统计学习方法前文说到使用统计学习方法进行文本分类就是让计算机自己来观察由人提供的训练文档集,自己总结出用于判别文档类别的规则和依据。理想的结果当然是让计算机在理解文章内容的基础上进行这样的分类,然而遗憾的是,我们所说的“理解”往往指的是文章的语义甚至是语用信息,这一类信息极其复杂,抽象,而且存在上下文相关性,对这类信息如何在计算机中表示都是尚未解决的问题(往大里说,这是一个“转载 2015-10-05 21:01:46 · 646 阅读 · 1 评论 -
文本分类入门(四)训练Part 1
文本分类入门(四)训练Part 1训练,顾名思义,就是training(汗,这解释),简单的说就是让计算机从给定的一堆文档中自己学习分类的规则(如果学不对的话,还要,打屁屁?)。开始训练之前,再多说几句关于VSM这种文档表示模型的话。举个例子,假设说把我正在写的“文本分类入门”系列文章的第二篇抽出来当作一个需要分类的文本,则可以用如下的向量来表示这个文本,以便于计算机理解和处理。转载 2015-10-05 21:13:27 · 746 阅读 · 0 评论 -
文本分类入门(五)训练Part 2
将样本数据成功转化为向量表示之后,计算机才算开始真正意义上的“学习”过程。再重复一次,所谓样本,也叫训练数据,是由人工进行分类处理过的文档集合,计算机认为这些数据的分类是绝对正确的,可以信赖的(但某些方法也有针对训练数据可能有错误而应对的措施)。接下来的一步便是由计算机来观察这些训练数据的特点,来猜测一个可能的分类规则(这个分类规则也可以叫做分类器,在机器学习的理论著作中也叫做一个“假设”,因转载 2015-10-05 21:25:07 · 589 阅读 · 0 评论 -
机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理)
机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理) 前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不断发展,相信这方面的人转载 2015-10-23 14:08:46 · 1221 阅读 · 0 评论 -
逻辑回归
转载地址:http://blog.csdn.net/pakko/article/details/37878837什么是逻辑回归?Logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同,其他的基本都差不多。正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalizedlinear model)。这一家族中的模型转载 2015-10-27 21:05:22 · 752 阅读 · 0 评论 -
跟我学solr---在solr admin中添加索引
这一章为大家介绍如何在solr admin中,通过浏览器向solr添加索引一.添加xml格式的文档进入solr admin后,点击Documents,选择Documentation Type为xml,然后在Document(s)输入框中输入需要添加索引的文档。点击Submit Document就可以把内容添加到solr中,建立索引了。参数解释:1.overwrite转载 2015-09-25 14:40:33 · 8425 阅读 · 0 评论 -
卡方检验文本特征选择
转载地址:http://blog.chinaunix.net/uid-20761674-id-4628888.html关于卡方检验,下面这篇blog介绍的比较详细,仔细思索之后,对一些点做如下说明,个人理解:1. 关于假设“词t与类别c无关”。这个假设应该变更为“词t不是对分类有区分度的特征”,(c是一个类别,除了c之外的所有数据组成另一个类别,类似逻辑回归多分类的方法)。一个转载 2015-10-29 12:52:31 · 4041 阅读 · 0 评论 -
逻辑回归
转载地址:http://blog.csdn.net/pakko/article/details/37878837什么是逻辑回归?Logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同,其他的基本都差不多。正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalizedlinear model)。这一家族中的模型转载 2015-10-29 10:59:32 · 567 阅读 · 0 评论 -
梯度下降法,最小二乘法求线性回归
转载地址:http://www.cnblogs.com/iamccme/archive/2013/05/15/3080737.html四. 最小二乘法与梯度下降法 最小二乘法跟梯度下降法都是通过求导来求损失函数的最小值,那它们有什么区别呢。 相同 1.本质相同:两种方法都是在给定已知数据(independent & dependent va转载 2015-10-14 20:49:55 · 1055 阅读 · 0 评论 -
牛顿迭代法求平方根
转载 2015-10-14 22:19:39 · 594 阅读 · 0 评论 -
应用scikit-learn做文本分类
转载地址:http://blog.csdn.net/abcjennifer/article/details/23615947文本挖掘的paper没找到统一的benchmark,只好自己跑程序,走过路过的前辈如果知道20newsgroups或者其它好用的公共数据集的分类(最好要所有类分类结果,全部或取部分特征无所谓)麻烦留言告知下现在的benchmark,万谢!嗯转载 2015-12-14 11:46:17 · 944 阅读 · 0 评论 -
文本分类概述
概览 自动文本分类(Automatic Text Categorization),或者简称为文本分类,是指计算机将一篇文章归于预先给定的某一类或某几类的过程。 文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别.文本分类是文本挖掘的一个重要内容。 所谓文本分类,是指对所给出的文本,给出预定义的一个或多个类别标号,对文本进行准确、高效的分类.它是许多数据管理任务转载 2015-10-05 20:18:14 · 1476 阅读 · 0 评论 -
机器学习实战之朴素贝叶斯
4. 朴素贝叶斯的优缺点:优点:在数据较少的情况下仍然有效,可以处理多类别问题。缺点:对于输入数据的准备方式较为敏感。适用数据类型:标称型数据。5.使用Python进行文本分类5.1 准备数据:从文本中构建词向量 我们将把文本看成单词向量或者词条向量。考虑出现在所有文档中的所有单词,再决定将哪些词纳入词汇表或者说所要的词汇集合,所以必须将每一篇文档转化成词汇表上的向原创 2015-09-06 23:08:37 · 856 阅读 · 0 评论 -
Spark MLlib SVM算法
转载地址:http://www.itnose.net/detail/6267193.html1.1 SVM支持向量机算法支持向量机理论知识参照以下文档:支持向量机SVM(一)支持向量机SVM(二)支持向量机(三)核函数支持向量机(四)支持向量机(五)SMO算法SVM的目标函数及梯转载 2015-09-26 00:36:43 · 11216 阅读 · 0 评论 -
EM算法学习(Expectation Maximization Algorithm)
http://www.cnblogs.com/mindpuzzle/archive/2013/04/05/2998746.htmlEM算法学习(Expectation Maximization Algorithm)一、前言 这是本人写的第一篇博客,是学习李航老师的《统计学习方法》书以及斯坦福机器学习课Andrew Ng的EM算法课后,对EM算法转载 2014-12-12 16:47:32 · 11126 阅读 · 3 评论 -
梯度下降方法
这几天在看《统计学习方法》这本书,发现 梯度下降法 在 感知机 等机器学习算法中有很重要的应用,所以就特别查了些资料。 一.介绍 梯度下降法(gradient descent)是求解无约束最优化问题的一种常用方法,有实现简单的优点。梯度下降法是迭代算法,每一步需要求解目标函数的梯度向量。 二.应用场景 1.给定许多转载 2015-06-20 16:24:30 · 843 阅读 · 0 评论 -
一些支持向量机(SVM)的开源代码库的链接及其简介
(1)LIBSVM: http://www.csie.ntu.edu.tw/~cjlin/libsvm/LIBSVM is an integrated software for support vector classification, (C-SVC, nu-SVC), regression (epsilon-SVR, nu-SVR) and distribution转载 2015-06-23 19:10:04 · 2573 阅读 · 0 评论 -
8大经典数据挖掘算法
大概花了将近2个月的时间,自己把18大数据挖掘的经典算法进行了学习并且进行了代码实现,涉及到了决策分类,聚类,链接挖掘,关联挖掘,模式挖掘等等方面。也算是对数据挖掘领域的小小入门了吧。下面就做个小小的总结,后面都是我自己相应算法的博文链接,希望能够帮助大家学习。1.C4.5算法。C4.5算法与ID3算法一样,都是数学分类算法,C4.5算法是ID3算法的一个改进。ID3算法采用信息增益进行决转载 2015-06-24 21:23:41 · 21709 阅读 · 1 评论 -
支持向量机通俗导论(理解SVM的三层境界)
支持向量机通俗导论(理解SVM的三层境界)作者:July ;致谢:pluskid、白石、JerryLead。出处:结构之法算法之道blog。前言 动笔写这个支持向量机(support vector machine)是费了不少劲和困难的,原因很简单,一者这个东西本身就并不好懂,要深入学习和研究下去需花费不少时间和精力,二者这个东西也不好讲转载 2015-06-24 19:52:44 · 966 阅读 · 0 评论 -
支持向量机(SVM)、支持向量回归(SVR)
论文完成也有一段时间了,用到了支持向量机(Support Vector Machine或SVM)方面的知识,感觉泛化能力比较好,一开始的时候,用了一些神经网络的模型,泛化能力都不是很满意,立即转到支持向量回归(Support Vector Regression或SVR)上,好在大三时候看过这方面的书,马上跑去图书馆借了基本书回来,加上网上的网友也传了几份SVM的论文文章,那时也快要公开答辩了,本来转载 2015-06-29 21:48:56 · 16205 阅读 · 0 评论 -
SVM多类分类方法
SVM多类分类方法的实现根据其指导思想大致有两种:(1)将多类问题分解为一系列SVM可直接求解的两类问题,基于这一系列SVM求解结果得出最终判别结果。(2)通过对前面所述支持向量分类机中的原始最优化问题的适当改变,使得它能同时计算出所有多类分类决策函数,从而“一次性”地实现多类分类。原始问题可以改写为:虽然第(2)种指导思想看起来简单,但由于它的最优化问题求解过程太复杂,计转载 2015-06-29 22:06:17 · 2840 阅读 · 0 评论 -
eclipse + libsvm-3.12 用SVM实现简单线性分类
0. 下载libsvm压缩包解压到本地目录(from:http://www.csie.ntu.edu.tw/~cjlin/libsvm/index.html) 1. 新建JAVA工程,导入libsvm包及其源码2. 编写测试代码,使用libsvm函数进行分类预测3. 参考贴一、新建JAVA工程,导入libsvm包及其源码。 1. 新建JAVA工程及主函数main后,右转载 2015-06-29 21:51:07 · 1229 阅读 · 0 评论 -
libsvm支持向量机回归示例
libsvm支持向量机算法包的基本使用,此处演示的是支持向量回归机import java.io.BufferedReader;import java.io.File;import java.io.FileReader;import java.util.ArrayList;import java.util.List; import libsvm.svm;import libsvm转载 2015-06-29 21:52:42 · 5875 阅读 · 0 评论 -
libsvm-3.12中的 README
Libsvm 是一个简单的,易用的,高效的SVM分类和回归软件。它解决了 C-SVM 分类,nu-SVM 分类,one-class-SVM,epsilon-SVM 回归,nu-SVM 回归(的问题)。它也提供了一个自动的 C-SVM 分类的模型选择工具。本文档解释了 Libsvm 的用法。Libsvm 的获取:http://www.csie.ntu.edu.tw/~cjlin/libs转载 2015-06-30 20:15:00 · 993 阅读 · 0 评论 -
逻辑斯蒂回归模型
第一节中说了,logistic 回归和线性回归的区别是:线性回归是根据样本X各个维度的Xi的线性叠加(线性叠加的权重系数wi就是模型的参数)来得到预测值的Y,然后最小化所有的样本预测值Y与真实值y‘的误差来求得模型参数。我们看到这里的模型的值Y是样本X各个维度的Xi的线性叠加,是线性的。Y=WX (假设W>0),Y的大小是随着X各个维度的叠加和的大小线性增加的,如图(x为了方便取1维):转载 2015-07-09 14:57:14 · 28873 阅读 · 2 评论 -
MaxEnt: 最大熵模型(Maximum Entropy Models)
转自:http://www.zhizhihu.com/html/y2011/3489.html刚看完HMM,因为有个ME-HMM方法,所以再看看最大熵模型,最后再把CRF模型看看,这一系列理论大体消化一下,补充一下自己的大脑,方便面试什么的能够应付一些问题。多读书,多思考,肚子里才有东西。==========什么是熵?咱们这里只看信息以及自然界的熵吧。《Bi转载 2015-07-05 16:09:19 · 638 阅读 · 0 评论 -
最大熵模型文献阅读指南
转载地址:http://www.52nlp.cn/maximum-entropy-model-tutorial-reading最大熵模型文献阅读指南发表于 2009年11月4号 由 52nlp 最大熵模型(Maximum Entropy Model)是一种机器学习方法,在自然语言处理的许多领域(如词性标注、中文分词、句子边界识别、浅层句法分析及文本分类等)转载 2015-07-05 16:10:40 · 593 阅读 · 0 评论 -
Windows下为64位的python3.4.3安装numpy
1.到官网https://www.python.org/downloads/下载python3.4.32.为python配置环境变量3.ctrl+r 输入cmd打开 终端4.在终端输入python -m pip install -U pip5.到http://www.lfd.uci.edu/~gohlke/pythonlibs/#numpy下载numpy‑1.10.0b1+mk原创 2015-08-16 16:08:14 · 22109 阅读 · 4 评论 -
生成libSVM的数据格式及使用方法总结
转载地址:http://blog.csdn.net/kobesdu/article/details/8944851首先介绍一下 libSVM的数据格式Label 1:value 2:value ….Label:是类别的标识,比如上节train.model中提到的1 -1,你可以自己随意定,比如-10,0,15。当然,如果是回归,这是目标值,就要实事求是了。V转载 2015-09-26 20:00:45 · 5600 阅读 · 2 评论 -
使用libsvm实现文本分类
转载地址:http://shiyanjun.cn/archives/548.html文本分类,首先它是分类问题,应该对应着分类过程的两个重要的步骤,一个是使用训练数据集训练分类器,另一个就是使用测试数据集来评价分类器的分类精度。然而,作为文本分类,它还具有文本这样的约束,所以对于文本来说,需要额外的处理过程,我们结合使用libsvm从宏观上总结一下,基于libsvm实现转载 2015-09-25 15:16:14 · 4654 阅读 · 0 评论 -
使用mahout下的朴素贝叶斯分类器对新闻分类
转载地址:http://www.letiantian.me/2014-10-22-mahout-naive-bayes-newsgroups/mahout版本是0.9;hadoop版本是1.2.1。下载数据集20 newsgroups dataset,解压后得到20news-bydate目录:$ cp -R 20news-bydate/*/* 2转载 2015-12-18 14:48:37 · 3734 阅读 · 1 评论