自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

转载 集成学习——Boosting和Bagging

link: http://m.blog.csdn.net/blog/fenghuangdesire/45013167集成学习基本思想:如果单个分类器表现的很好,那么为什么不适用多个分类器呢?通过集成学习可以提高整体的泛化能力,但是这种提高是有条件的:(1)分类器之间应该有差异性;(2)每个分类器的精度必须大于0.5;如果使用的分类器没有差异,那么集成起来的分类结果是没有变化

2015-11-14 17:54:34 4210

转载 机器学习复习——各类算法优缺点总结

算法优点缺点决策树(Decision Trees)1.   易于理解和解释;2.   数据的准备简单或者是不必要的.其他的技术往往要求先把数据一般化,比如去掉多余的或者空白的属性。3.   能够同时处理数据型和常规型属性。其他的技术往往要求数据属性的单一。4.   决策树是一个白盒模型.如果给定一个观察的模型,那么根据所产生的决策

2015-11-11 18:41:33 1829

原创 机器学习复习——FP Growth

FP Growth:FP Growth是一种比Apriori更高效的频繁项挖掘方法,它只需要扫描项目表2次。其中第1次扫描获得当个项目的频率,去掉不符合支持度要求的项,并对剩下的项排序。第2遍扫描是建立一颗FP-Tree(frequent-patten tree)。接下来的工作就是在FP-Tree上进行挖掘。比如说有下表:它所对应的FP_Tree如下:然后从

2015-11-11 16:26:57 688

原创 机器学习复习——Regularization

Regularization:作用是:1. 数值上更容易求解;2. 特征数目太大时更稳定;3. 控制模型的复杂度,光滑性。复杂性越小且越光滑的目标函数泛化能力越强。而加入规则项能使目标函数复杂度减小,且更光滑。4. 减小参数空间;参数空间越小,复杂度越低。5. 系数越小,模型越简单,而模型越简单则泛化能力越强(Ng宏观上给出的解释)。6. 可以看出是权值的高斯先验。

2015-11-11 16:14:25 502

原创 机器学习复习——GBDT

GDBT:GBDT(Gradient Boosting Decision Tree) 又叫 MART(MultipleAdditive Regression Tree),它是一种迭代的决策树算法。该算法由多棵决策树组成,所有树的输出结果累加起来就是最终答案。它在被提出之初就和SVM一起被认为是泛化能力(generalization)较强的算法。近些年更因为被用于搜索排序的机器学

2015-11-11 16:12:53 460

原创 机器学习复习——异常检测

异常检测:可以估计样本的密度函数,对于新样本直接计算其密度,如果密度值小于某一阈值,则表示该样本异常。而密度函数一般采用多维的高斯分布。如果样本有n维,则每一维的特征都可以看作是符合高斯分布的,即使这些特征可视化出来不太符合高斯分布,也可以对该特征进行数学转换让其看起来像高斯分布,比如说x=log(x+c), x=x^(1/c)等。异常检测的算法流程如下: 

2015-11-05 17:50:36 657

原创 机器学习复习——EM

EM算法:有时候因为样本的产生和隐含变量有关(隐含变量是不能观察的),而求模型的参数时一般采用最大似然估计,由于含有了隐含变量,所以对似然函数参数求导是求不出来的,这时可以采用EM算法来求模型的参数的(对应模型参数个数可能有多个),EM算法一般分为2步:E步:选取一组参数,求出在该参数下隐含变量的条件概率值;M步:结合E步求出的隐含变量条件概率,求出似然函数下界

2015-11-05 17:47:55 366

原创 机器学习复习——Apriori

Apriori:Apriori是关联分析中比较早的一种方法,主要用来挖掘那些频繁项集合。其思想是:1.如果一个项目集合不是频繁集合,那么任何包含它的项目集合也一定不是频繁集合;2.如果一个项目集合是频繁集合,那么它的任何非空子集也是频繁集合;Aprioir需要扫描项目表多遍,从一个项目开始扫描,舍去掉那些不是频繁的项目,得到的集合称为L,然后对L

2015-11-05 17:44:22 478

原创 机器学习复习——pLSA、LDA

pLSA:pLSA由LSA发展过来,而早期LSA的实现主要是通过SVD分解。pLSA的模型图如下:公式中的意义如下:具体可以参考2010龙星计划:机器学习中对应的主题模型那一讲 LDA:主题模型,概率图如下:和pLSA不同的是LDA中假设了很多先验分布,且一般参数的先验分布都假设为Dirichlet

2015-11-05 16:02:19 575

原创 机器学习复习——推荐系统

推荐系统:推荐系统的实现主要分为两个方面:基于内容的实现和协同滤波的实现。一、基于内容的实现:不同人对不同电影的评分这个例子,可以看做是一个普通的回归问题,因此每部电影都需要提前提取出一个特征向量(即x值),然后针对每个用户建模,即每个用户打的分值作为y值,利用这些已有的分值y和电影特征值x就可以训练回归模型了(最常见的就是线性回归)。这样就可以预测那些

2015-11-05 14:48:10 532

原创 机器学习复习——聚类

聚类:根据聚类思想划分:1.基于划分的聚类:K-means, k-medoids(每一个类别中找一个样本点来代表),CLARANS.k-means是使下面的表达式值最小:k-means算法的优点:(1)k-means算法是解决聚类问题的一种经典算法,算法简单、快速。(2)对处理大数据集,该算法是相对可伸

2015-11-05 14:38:04 462

原创 机器学习复习——Boosting

Boosting:主要以Adaboost为例,首先来看看Adaboost的流程图,如下:    从图中可以看到,在训练过程中我们需要训练出多个弱分类器(图中为3个),每个弱分类器是由不同权重的样本(图中为5个训练样本)训练得到(其中第一个弱分类器对应输入样本的权值是一样的),而每个弱分类器对最终分类结果的作用也不同,是通过加权平均输出的,权值见上图中三角形里面的数值

2015-11-05 14:22:01 519

原创 机器学习复习——SVM

SVM:要学会如何使用libsvm以及一些参数的调节经验,另外需要理清楚svm算法的一些思路:1. svm中的最优分类面是对所有样本的几何裕量最大(为什么要选择最大间隔分类器,请从数学角度上说明?网易深度学习岗位面试过程中有被问到。答案就是几何间隔与样本的误分次数间存在关系:,其中的分母就是样本到分类间隔距离,分子中的R是所有样本中的最长向量值),即:经

2015-11-05 14:14:47 636

原创 机器学习复习——KNN

KNN算法:KNN即最近邻算法,其主要过程为:1.计算训练样本和测试样本中每个样本点的距离(常见的距离度量有欧式距离,马氏距离等);2.对上面所有的距离值进行排序;3.选前k个最小距离的样本;4.根据这k个样本的标签进行投票,得到最后的分类类别;    如何选择一个最佳的K值,这取决于数据。一般情况下,在分类时较大

2015-11-05 14:02:27 578

原创 机器学习复习——线性回归

线性回归:线性回归才是真正用于回归的,而不像logistic回归是用于分类,其基本思想是用梯度下降法对最小二乘法形式的误差函数进行优化,当然也可以用normal equation直接求得参数的解,结果为:而在LWLR(局部加权线性回归)中,参数的计算表达式为:因为此时优化的是:由此可见LWLR与LR不同,LWLR是一个非参数模

2015-11-05 13:59:41 514

原创 机器学习复习——Logistic回归

Logistic回归:Logistic是用来分类的,是一种线性分类器,需要注意的地方有:1. logistic函数表达式为:其导数形式为:2. logsitc回归方法主要是用最大似然估计来学习的,所以单个样本的后验概率为:到整个样本的后验概率:其中:通过对数进一步化简为:3.

2015-11-04 18:19:05 515

原创 机器学习复习——决策树

决策树:决策树中很重要的一点就是选择一个属性进行分枝,因此要注意一下信息增益的计算公式,并深入理解它。信息熵的计算公式如下:其中的n代表有n个分类类别(比如假设是2类问题,那么n=2)。分别计算这2类样本在总样本中出现的概率p1和p2,这样就可以计算出未选中属性分枝前的信息熵。现在选中一个属性xi用来进行分枝,此时分枝规则是:如果xi=vx的话,

2015-11-04 18:17:03 406

原创 机器学习复习——朴素贝叶斯

朴素贝叶斯:有以下几个地方需要注意:1.如果给出的特征向量长度可能不同,这是需要归一化为通长度的向量(这里以文本分类为例),比如说是句子单词的话,则长度为整个词汇量的长度,对应位置是该单词出现的次数。2.计算公式如下:其中一项条件概率可以通过朴素贝叶斯条件独立展开。要注意一点就是的计算方法,而由朴素贝叶斯的前提假设可知,=,因此一般有两种

2015-11-04 18:05:42 439

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除