机器学习算法
JokerMi
以绝大多数人的努力程度之低 根本轮不到去拼天赋
展开
-
机器学习算法 总结
这些是JerryLead的cnblog中的Machine Learning专栏,里面对于机器学习的部分算法和知识点讲解地很经典和透彻。Mark一下。http://www.cnblogs.com/jerrylead/tag/Machine%20Learning/ 偏最小二乘法回归(Partial Least Squares Regression)典型关联分析(Ca原创 2015-03-27 21:03:10 · 477 阅读 · 0 评论 -
Apriori算法笔记(二)
数据挖掘十大算法--Apriori算法一、Apriori 算法概述Apriori 算法是一种最有影响力的挖掘布尔关联规则的频繁项集的 算法,它是由Rakesh Agrawal 和RamakrishnanSkrikant 提出的。它使用一种称作逐层搜索的迭代方法,k- 项集用于探索(k+1)- 项集。首先,找出频繁 1- 项集的集合。该集合记作L1。L1 用于找频繁2- 项集的集合 L2,而原创 2015-03-30 21:02:56 · 1768 阅读 · 0 评论 -
Apriori算法笔记
1 算法思想算法使用频繁项集性质的先验知识。Apriori使用一种称作逐层搜索的迭代方法,k项集用于探索(k+1)项集。首先,通过扫描数据库,累积每个项的计数,并收集满足最小支持度的项,找出频繁1项集的集合。该集合记作L1.然后,L1用于找频繁2项集的集合L2,L2用于找L3,如此迭代,直到不能再找到频繁k项集。找每个Lk需要一次数据库全扫描。Apriori性质可用于压缩搜索空间,原创 2015-03-30 20:31:36 · 5434 阅读 · 0 评论 -
数据挖掘十大经典算法
一、 C4.5 C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3 算法. C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进: 1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足; 2) 在树构造过程中进行剪枝; 3) 能够完成对连续属性的离散化处理; 4) 能够对不完整数据进行处理。原创 2015-05-18 10:51:56 · 1471 阅读 · 0 评论 -
svm相关学习大全
SVM原理 入门(1-10):(1-3)简介+线性分类器 http://www.blogjava.net/zhenandaci/archive/2009/02/13/254519.html (4) 线性分类器的求解 http://www.blogjava.net/zhenandaci/archive/2009/02/13/254578.html (原创 2015-05-06 20:24:34 · 796 阅读 · 0 评论 -
交叉验证(CrossValidation)方法思想简介
交叉验证(CrossValidation)方法思想简介以下简称交叉验证(Cross Validation)为CV.CV是用来验证分类器的性能一种统计分析方法,基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set),首先用训练集对分类器进行训练,在利用验证集来测试训练得到的模型(model),以原创 2015-05-06 20:24:33 · 614 阅读 · 0 评论 -
SVM通俗讲义
(一)SVM的八股简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[10]。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,原创 2015-04-21 17:30:59 · 664 阅读 · 0 评论 -
文本分类入门-特征选择方法之信息增益
除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是很有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而如何量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越高,该特征越应该被保留。在信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少信息,带来的信息越多原创 2015-04-21 19:55:44 · 581 阅读 · 0 评论 -
KNN算法简单介绍
邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几原创 2015-04-20 15:54:53 · 889 阅读 · 0 评论 -
从协方差到PCA算法步骤详解
问题:假设在IR中我们建立的文档-词项矩阵中,有两个词项为“learn”和“study”,在传统的向量空间模型中,认为两者独立。然而从语义的角度来讲,两者是相似的,而且两者出现频率也类似,是不是可以合成为一个特征呢? 《模型选择和规则化》谈到的特征选择的问题,就是要剔除的特征主要是和类标签无关的特征。比如“学生的名字”就和他的“成绩”无关,使用的是互信息的方法。原创 2015-04-20 17:34:57 · 7829 阅读 · 0 评论 -
分类回归树CART(上)
分类回归树(CART,Classification And Regression Tree)也属于一种决策树,上回文我们介绍了基于ID3算法的决策树。作为上篇,这里只介绍CART是怎样用于分类的。分类回归树是一棵二叉树,且每个非叶子节点都有两个孩子,所以对于第一棵子树其叶子节点数比非叶子节点数多1。表1名称体温表面覆盖胎生产蛋原创 2015-04-23 12:53:04 · 622 阅读 · 0 评论 -
朴素贝叶斯分类
先上问题吧,我们统计了14天的气象数据(指标包括outlook,temperature,humidity,windy),并已知这些天气是否打球(play)。如果给出新一天的气象指标数据:sunny,cool,high,TRUE,判断一下会不会去打球。table 1outlooktemperaturehumiditywindyplay原创 2015-04-22 17:31:05 · 548 阅读 · 0 评论 -
ID3算法-通俗解释
ID3算法就是这样的一个算法,他能够找出我们上面提到的最有用的参考属性。ID3算法是由J.Ross.Quinlan在1975年提出的一种基于信息论的分类预测算法,该算法的核心是“信息熵”。下面是对信息熵的一种通俗的理解:信息熵其实就是描绘了一组数据的有序程度,一组数据越是有序信息熵也就越底,一种极端的情况是一组数据中只有一个非0值,其他都是0,那么熵就是0。另外一种情况是,如果一组数据越是无序信息原创 2015-04-05 22:28:42 · 3789 阅读 · 0 评论