2015年11月_RYP_S

转载集成学习——Boosting和Bagging

link: http://m.blog.csdn.net/blog/fenghuangdesire/45013167集成学习基本思想：如果单个分类器表现的很好，那么为什么不适用多个分类器呢？通过集成学习可以提高整体的泛化能力，但是这种提高是有条件的：（1）分类器之间应该有差异性；（2）每个分类器的精度必须大于0.5；如果使用的分类器没有差异，那么集成起来的分类结果是没有变化

2015-11-14 17:54:34 4210

转载机器学习复习——各类算法优缺点总结

算法优点缺点决策树（Decision Trees）1. 易于理解和解释;2. 数据的准备简单或者是不必要的.其他的技术往往要求先把数据一般化，比如去掉多余的或者空白的属性。3. 能够同时处理数据型和常规型属性。其他的技术往往要求数据属性的单一。4. 决策树是一个白盒模型.如果给定一个观察的模型，那么根据所产生的决策

2015-11-11 18:41:33 1829

原创机器学习复习——FP Growth

FP Growth:FP Growth是一种比Apriori更高效的频繁项挖掘方法，它只需要扫描项目表2次。其中第1次扫描获得当个项目的频率，去掉不符合支持度要求的项，并对剩下的项排序。第2遍扫描是建立一颗FP-Tree(frequent-patten tree)。接下来的工作就是在FP-Tree上进行挖掘。比如说有下表：它所对应的FP_Tree如下：然后从

2015-11-11 16:26:57 688

原创机器学习复习——Regularization

Regularization:作用是：1. 数值上更容易求解；2. 特征数目太大时更稳定；3. 控制模型的复杂度，光滑性。复杂性越小且越光滑的目标函数泛化能力越强。而加入规则项能使目标函数复杂度减小，且更光滑。4. 减小参数空间；参数空间越小，复杂度越低。5. 系数越小，模型越简单，而模型越简单则泛化能力越强（Ng宏观上给出的解释）。6. 可以看出是权值的高斯先验。

2015-11-11 16:14:25 502

原创机器学习复习——GBDT

GDBT：GBDT(Gradient Boosting Decision Tree) 又叫 MART（MultipleAdditive Regression Tree)，它是一种迭代的决策树算法。该算法由多棵决策树组成，所有树的输出结果累加起来就是最终答案。它在被提出之初就和SVM一起被认为是泛化能力（generalization)较强的算法。近些年更因为被用于搜索排序的机器学

2015-11-11 16:12:53 460

原创机器学习复习——异常检测

异常检测：可以估计样本的密度函数，对于新样本直接计算其密度，如果密度值小于某一阈值，则表示该样本异常。而密度函数一般采用多维的高斯分布。如果样本有n维，则每一维的特征都可以看作是符合高斯分布的，即使这些特征可视化出来不太符合高斯分布，也可以对该特征进行数学转换让其看起来像高斯分布，比如说x=log(x+c), x=x^(1/c)等。异常检测的算法流程如下：

2015-11-05 17:50:36 657

原创机器学习复习——EM

EM算法：有时候因为样本的产生和隐含变量有关（隐含变量是不能观察的），而求模型的参数时一般采用最大似然估计，由于含有了隐含变量，所以对似然函数参数求导是求不出来的，这时可以采用EM算法来求模型的参数的（对应模型参数个数可能有多个），EM算法一般分为2步：E步：选取一组参数，求出在该参数下隐含变量的条件概率值；M步：结合E步求出的隐含变量条件概率，求出似然函数下界

2015-11-05 17:47:55 366

原创机器学习复习——Apriori

Apriori:Apriori是关联分析中比较早的一种方法，主要用来挖掘那些频繁项集合。其思想是：1.如果一个项目集合不是频繁集合，那么任何包含它的项目集合也一定不是频繁集合；2.如果一个项目集合是频繁集合，那么它的任何非空子集也是频繁集合；Aprioir需要扫描项目表多遍，从一个项目开始扫描，舍去掉那些不是频繁的项目，得到的集合称为L，然后对L

2015-11-05 17:44:22 478

原创机器学习复习——pLSA、LDA

pLSA:pLSA由LSA发展过来，而早期LSA的实现主要是通过SVD分解。pLSA的模型图如下：公式中的意义如下：具体可以参考2010龙星计划：机器学习中对应的主题模型那一讲 LDA：主题模型，概率图如下：和pLSA不同的是LDA中假设了很多先验分布，且一般参数的先验分布都假设为Dirichlet

2015-11-05 16:02:19 575

原创机器学习复习——推荐系统

推荐系统：推荐系统的实现主要分为两个方面：基于内容的实现和协同滤波的实现。一、基于内容的实现：不同人对不同电影的评分这个例子，可以看做是一个普通的回归问题，因此每部电影都需要提前提取出一个特征向量(即x值)，然后针对每个用户建模，即每个用户打的分值作为y值，利用这些已有的分值y和电影特征值x就可以训练回归模型了(最常见的就是线性回归)。这样就可以预测那些

2015-11-05 14:48:10 532

原创机器学习复习——聚类

聚类：根据聚类思想划分：1.基于划分的聚类:K-means, k-medoids(每一个类别中找一个样本点来代表),CLARANS.k-means是使下面的表达式值最小：k-means算法的优点：（1）k-means算法是解决聚类问题的一种经典算法，算法简单、快速。（2）对处理大数据集，该算法是相对可伸

2015-11-05 14:38:04 462

原创机器学习复习——Boosting

Boosting：主要以Adaboost为例，首先来看看Adaboost的流程图，如下：从图中可以看到，在训练过程中我们需要训练出多个弱分类器（图中为3个），每个弱分类器是由不同权重的样本（图中为5个训练样本）训练得到（其中第一个弱分类器对应输入样本的权值是一样的），而每个弱分类器对最终分类结果的作用也不同，是通过加权平均输出的，权值见上图中三角形里面的数值

2015-11-05 14:22:01 519

原创机器学习复习——SVM

SVM：要学会如何使用libsvm以及一些参数的调节经验，另外需要理清楚svm算法的一些思路：1. svm中的最优分类面是对所有样本的几何裕量最大（为什么要选择最大间隔分类器，请从数学角度上说明？网易深度学习岗位面试过程中有被问到。答案就是几何间隔与样本的误分次数间存在关系：，其中的分母就是样本到分类间隔距离，分子中的R是所有样本中的最长向量值），即：经

2015-11-05 14:14:47 636

原创机器学习复习——KNN

KNN算法：KNN即最近邻算法，其主要过程为：1.计算训练样本和测试样本中每个样本点的距离（常见的距离度量有欧式距离，马氏距离等）；2.对上面所有的距离值进行排序；3.选前k个最小距离的样本；4.根据这k个样本的标签进行投票，得到最后的分类类别；如何选择一个最佳的K值，这取决于数据。一般情况下，在分类时较大

2015-11-05 14:02:27 578

原创机器学习复习——线性回归

线性回归：线性回归才是真正用于回归的，而不像logistic回归是用于分类，其基本思想是用梯度下降法对最小二乘法形式的误差函数进行优化，当然也可以用normal equation直接求得参数的解，结果为：而在LWLR（局部加权线性回归）中，参数的计算表达式为:因为此时优化的是：由此可见LWLR与LR不同，LWLR是一个非参数模

2015-11-05 13:59:41 514

原创机器学习复习——Logistic回归

Logistic回归：Logistic是用来分类的，是一种线性分类器，需要注意的地方有：1. logistic函数表达式为：其导数形式为：2. logsitc回归方法主要是用最大似然估计来学习的，所以单个样本的后验概率为：到整个样本的后验概率：其中：通过对数进一步化简为：3.

2015-11-04 18:19:05 515

原创机器学习复习——决策树

决策树：决策树中很重要的一点就是选择一个属性进行分枝，因此要注意一下信息增益的计算公式，并深入理解它。信息熵的计算公式如下:其中的n代表有n个分类类别（比如假设是2类问题，那么n=2）。分别计算这2类样本在总样本中出现的概率p1和p2，这样就可以计算出未选中属性分枝前的信息熵。现在选中一个属性xi用来进行分枝，此时分枝规则是：如果xi=vx的话，

2015-11-04 18:17:03 406

原创机器学习复习——朴素贝叶斯

朴素贝叶斯：有以下几个地方需要注意：1.如果给出的特征向量长度可能不同，这是需要归一化为通长度的向量（这里以文本分类为例），比如说是句子单词的话，则长度为整个词汇量的长度，对应位置是该单词出现的次数。2.计算公式如下：其中一项条件概率可以通过朴素贝叶斯条件独立展开。要注意一点就是的计算方法，而由朴素贝叶斯的前提假设可知，=，因此一般有两种

2015-11-04 18:05:42 439

RYP_S 的专栏