Data mining
chvalrous
不忘初心,方得始终.
展开
-
piaip 的 (lib)SVM 簡易入門
本文转载自http://ntu.csie.org/~piaip/svm/svm_tutorial.html#piaip at csie dot ntu dot edu dot tw, Hung-Te LinFri Apr 18 15:04:53 CST 2003 $Id: svm_tutorial.html,v 1.13 2007/10/02 05:51:55 piai转载 2015-01-12 17:16:41 · 799 阅读 · 0 评论 -
SVM入门(九)松弛变量(续)
接下来要说的东西其实不是松弛变量本身,但由于是为了使用松弛变量才引入的,因此放在这里也算合适,那就是惩罚因子C。回头看一眼引入了松弛变量以后的优化问题:注意其中C的位置,也可以回想一下C所起的作用(表征你有多么重视离群点,C越大越重视,越不想丢掉它们)。这个式子是以前做SVM的人写的,大家也就这么用,但没有任何规定说必须对所有的松弛变量都使用同一个惩罚因子,我们完全可以给每一个离群转载 2015-12-21 12:59:00 · 996 阅读 · 0 评论 -
SVM入门(十)将SVM用于多类分类
从 SVM的那几张图可以看出来,SVM是一种典型的两类分类器,即它只回答属于正类还是负类的问题。而现实中要解决的问题,往往是多类的问题(少部分例外,例如垃圾邮件过滤,就只需要确定“是”还是“不是”垃圾邮件),比如文本分类,比如数字识别。如何由两类分类器得到多类分类器,就是一个值得研究的问题。还以文本分类为例,现成的方法有很多,其中一种一劳永逸的方法,就是真的一次性考虑所有样本,并求解一个多转载 2015-12-21 13:00:09 · 618 阅读 · 0 评论 -
文本分类入门(十一)特征选择方法之信息增益
前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是很有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而如何量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越高,该特征越应该被保留。在信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少信息,带转载 2015-12-21 13:01:18 · 1906 阅读 · 0 评论 -
文本分类入门(番外篇)特征选择与特征权重计算的区别
在文本分类的过程中,特征(也可以简单的理解为“词”)从人类能够理解的形式转换为计算机能够理解的形式时,实际上经过了两步骤的量化——特征选择阶段的重要程度量化和将具体文本转化为向量时的特征权重量化。初次接触文本分类的人很容易混淆这两个步骤使用的方法和各自的目的,因而我经常听到读者有类似“如何使用TFIDF做特征选择”或者“卡方检验量化权重后每篇文章都一样”等等困惑。文本分类本质上也是一个模式识别转载 2015-12-21 13:03:05 · 851 阅读 · 0 评论 -
在Python中使用线性回归预测数据
本文转载自:http://python.jobbole.com/81215/本文中,我们将进行大量的编程——但在这之前,我们先介绍一下我们今天要解决的实例问题。1) 预测房子价格我们想预测特定房子的价值,预测依据是房屋面积。2) 预测下周哪个电视节目会有更多的观众闪电侠和绿箭侠是我最喜欢的电视节目。我想看看下周哪个节目会有更多的观众。转载 2016-09-08 23:13:01 · 5667 阅读 · 0 评论 -
《机器学习实战》预测数值型数据-回归(Regression)
本文转载自:http://blog.csdn.net/gamer_gyt/article/details/514052511:用线性回归找到最佳拟合曲线 回归的目的是预测数值型的目标值。最直接的办法是依据输人写出一个目标值的计算公式。假如你想要预测姐姐男友汽车的功率大小,可能会这么计算:这就是所谓的回归方程,其中的0.0015和-0.转载 2016-09-08 19:34:14 · 4752 阅读 · 0 评论 -
逻辑回归
本文转载自:http://blog.csdn.net/pakko/article/details/37878837什么是逻辑回归?Logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同,其他的基本都差不多。正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalizedlinear model)。这一家族中的模型形式基转载 2016-09-08 22:31:08 · 576 阅读 · 0 评论 -
数据挖掘十大经典算法
本文转载自:http://www.cnblogs.com/lcchuguo/p/4874288.html 一、 C4.5 C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3 算法. C4.5算法继承了ID3算法的长处。并在下面几方面对ID3算法进行了改进: 1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足。 2) 在树构造转载 2016-11-15 15:57:30 · 6756 阅读 · 0 评论 -
SVM入门(八)松弛变量
现在我们已经把一个本来线性不可分的文本分类问题,通过映射到高维空间而变成了线性可分的。就像下图这样: 圆形和方形的点各有成千上万个(毕竟,这就是我们训练集中文档的数量嘛,当然很大了)。现在想象我们有另一个训练集,只比原先这个训练集多了一篇文章,映射到高维空间以后(当然,也使用了相同的核函数),也就多了一个样本点,但是这个样本的位置是这样的: 就是图中黄色转载 2015-12-21 12:57:57 · 952 阅读 · 0 评论 -
SVM入门(七)为何需要核函数
生存?还是毁灭?——哈姆雷特可分?还是不可分?——支持向量机之前一直在讨论的线性分类器,器如其名(汗,这是什么说法啊),只能对线性可分的样本做处理。如果提供的样本线性不可分,结果很简单,线性分类器的求解程序会无限循环,永远也解不出来。这必然使得它的适用范围大大缩小,而它的很多优点我们实在不原意放弃,怎么办呢?是否有某种方法,让线性不可分的数据变得线性可分呢?有!其思想说来也转载 2015-12-21 12:56:43 · 601 阅读 · 0 评论 -
SVM入门(六)线性分类器的求解——问题的转化,直观角度
让我再一次比较完整的重复一下我们要解决的问题:我们有属于两个类别的样本点(并不限定这些点在二维空间中)若干,如图,圆形的样本点定为正样本(连带着,我们可以把正样本所属的类叫做正类),方形的点定为负例。我们想求得这样一个线性函数(在n维空间中的线性函数):g(x)=wx+b使得所有属于正类的点x+代入以后有g(x+)≥1,而所有属于负类的点x-代入后有g(x-)≤-1转载 2015-12-21 12:55:13 · 573 阅读 · 0 评论 -
主题模型-LDA浅析
本文转载自:http://blog.csdn.net/huagong_adu/article/details/7937616上个月参加了在北京举办SIGKDD国际会议,在个性化推荐、社交网络、广告预测等各个领域的workshop上都提到LDA模型,感觉这个模型的应用挺广泛的,会后抽时间了解了一下LDA,做一下总结:(一)LDA作用 传统判断两个文档相似性的方法是通转载 2015-03-16 16:04:52 · 849 阅读 · 0 评论 -
LibLinear(SVM包)使用说明之(一)README
本文转载自:http://blog.csdn.net/zouxy09/article/details/10947323LibLinear(SVM包)使用说明之(一)READMEzouxy09@qq.comhttp://blog.csdn.net/zouxy09 本文主要是翻译liblinear-1.93版本的README文件。里面介绍了libli转载 2015-03-23 11:31:38 · 764 阅读 · 0 评论 -
文本分类,数据挖掘和机器学习
机器学习的有概率分类器(probabilistic) ,贝叶斯推理网络(bayesian inference networks) , 决策树分类器(decision tree) ,决策规则分类器(decision rule) ,基于回归的线性最小二乘llsf(regression based on linearleast squares fit ) , 符号规则归纳法( symbolic ru转载 2015-08-11 10:45:47 · 2647 阅读 · 0 评论 -
CRF 简介入门
CRF简介Conditional Random Field:条件随机场,一种机器学习技术(模型)CRF由John Lafferty最早用于NLP技术领域,其在NLP技术领域中主要用于文本标注,并有多种应用场景,例如:分词(标注字的词位信息,由字构词)词性标注(标注分词的词性,例如:名词,动词,助词)命名实体识别(识别人名,地名,机构名,商品名等具有一定内在规律的实体名词转载 2015-11-12 14:25:14 · 2909 阅读 · 0 评论 -
中文知识图谱研讨会的学习总结 (上) 图谱引入、百度知心、搜狗知立方
知识图谱(Knowledge Graph)是当前学术界和企业界的研究热点。中文知识图谱的构建对中文信息处理和中文信息检索具有重要的价值。中国中文信息学会(CIPS)邀请了有约10家从事知识图谱研究和实践的著名高校、研究机构和企业的专家及学者有意参与并发表演讲,下面就是第一届全国中文知识图谱研讨会的学习笔记。 会议介绍地址和PPT下载链接:http://www.cipsc.org.转载 2015-11-16 18:35:00 · 2477 阅读 · 0 评论 -
SVM入门(一)至(三)Refresh
按:之前的文章重新汇编一下,修改了一些错误和不当的说法,一起复习,然后继续SVM之旅.(一)SVM的八股简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[10]。支持向量机方法是建立在统计学习理论的VC 维转载 2015-12-21 12:49:11 · 488 阅读 · 0 评论 -
SVM入门(四)线性分类器的求解——问题的描述Part1
上节说到我们有了一个线性分类函数,也有了判断解优劣的标准——即有了优化的目标,这个目标就是最大化几何间隔,但是看过一些关于SVM的论文的人一定记得什么优化的目标是要最小化||w||这样的说法,这是怎么回事呢?回头再看看我们对间隔和几何间隔的定义:间隔:δ=y(wx+b)=|g(x)|几何间隔: 可以看出δ=||w||δ几何。注意到几何间隔与||w||是成反比的,因此转载 2015-12-21 12:50:56 · 657 阅读 · 0 评论 -
SVM入门(五)线性分类器的求解——问题的描述Part2
从最一般的定义上说,一个求最小值的问题就是一个优化问题(也叫寻优问题,更文绉绉的叫法是规划——Programming),它同样由两部分组成,目标函数和约束条件,可以用下面的式子表示:(式1)约束条件用函数c来表示,就是constrain的意思啦。你可以看出一共有p+q个约束条件,其中p个是不等式约束,q个等式约束。关于这个式子可以这样来理解:式中的x是自变量,但不限定它的维转载 2015-12-21 12:53:56 · 621 阅读 · 0 评论 -
详细解释数据挖掘中的 10 大算法
本文转载自:http://blog.jobbole.com/90316/在一份调查问卷中,三个独立专家小组投票选出的十大最有影响力的数据挖掘算法,今天我打算用简单的语言来解释一下。一旦你知道了这些算法是什么、怎么工作、能做什么、在哪里能找到,我希望你能把这篇博文当做一个跳板,学习更多的数据挖掘知识。还等什么?这就开始吧!1.C4.5算法C4.5是转载 2017-07-11 14:29:18 · 738 阅读 · 0 评论