统计学习方法
哈特谢普苏特
海上生明月
展开
-
《统计学习方法》第一章总结
统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习的对象是数据。目的是对数据进行预测和分析。统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提。同类数据是指具有某种共性的数据。eg:浏览器中的网页,英语文章等统计学习分为:监督学习 非监督学习 半监督学习 强化学习监督学习与非监督学习的区别在于是否有用于学习的原创 2018-01-14 18:17:27 · 393 阅读 · 0 评论 -
《统计学习方法》第六章总结
第六章讲逻辑斯蒂回归模型和最大熵模型,这两个模型都属于对数线性模型。这两个模型学习一般采用极大似然估计,或正则化的 极大似然估计。逻辑斯蒂回归模型及最大熵模型学习可以转化为为无约束最优化问题。求解该最优化问题的算法有改进的迭代尺度法,梯度下降法,拟牛顿法。二项逻辑斯蒂回归模型是一种分类模型,由条件分布P(X|Y)表示,形式为参数化的逻辑斯蒂回归。这里,随机变量X取值为实数,随机变量Y取值为原创 2018-01-28 18:58:49 · 1076 阅读 · 0 评论 -
《统计学习方法》第五章总结
决策树是一种基本的回归和分类方法,这里主要讨论分类。分类决策树模型是一种描述对实例进行分类的树形结构,决策树由节点和有向边组成,其中节点分为内部节点和叶节点,内部节点表示一个特征或属性,叶节点表示一个类别。决策树呈树形结构,是基于特征对实例进行分类的过程,同时决策树可以看做是IF-THEN规则的集合(这里有一个重要的性质就是互斥和完备:也就是对每一个实例都有一条路径或规则覆盖,而且是只有一条路径或原创 2018-01-28 17:56:41 · 423 阅读 · 0 评论 -
《统计学习方法》第四章总结
第四章讲的是朴素贝叶斯法。首先我们要区别先验概率和后验概率以及贝叶斯公式先验概率:P(x)后验概率:条件概率 P(y| x)贝叶斯公式及其各种形式这个公式是我们在概率论中最常见的公式。朴素贝叶斯法实际上学习到生成数据的机制,所以属于生成模型,条件独立假设等于是说用于分类的特征在类确定的条件下都是条件独立的。后验概率最大化等价于期望风险最小化,由上述,可以推导出朴素贝叶斯算法原创 2018-01-28 16:47:53 · 310 阅读 · 0 评论 -
《统计学习方法》第三章总结
第三章讲的是K邻近法,一种基本分类与回归的方法。简单描述就是:给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该输入实例分为这个类。例如上图,图中有红色的三角形类和蓝色的方块类,绿色的是待分类的对象,如果我们取K=3,那么很显然在绿色圆周围有两个红的一个蓝的,绿色的圆应该归为红色的一类,但是如果选择K=5,绿色的圆周围有三原创 2018-01-28 16:32:53 · 946 阅读 · 4 评论 -
《统计学习方法》第十二 章总结
第十二章和第一章一样,是一个总结。主要学了感知机,K邻近法,朴素贝叶斯法,决策树,逻辑斯蒂回归与最大熵模型,支持向量机,提升方法,EM算法,隐马尔可夫模型和条件随机场等10中主要的统计学习方法。(另:抽空会用Python实现算法)原创 2018-02-03 22:34:51 · 279 阅读 · 0 评论 -
《统计学习方法》第十一章总结
条件随机场是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫随机场,条件随机场可以用于不同的预测问题,本书主要讲述线性链条件随机场。条件随机场也可以简化或者用矩阵形式表示条件随机场的概率计算问题前向后向算法前向-后向算法概率计算利用前向-后向向量计算期原创 2018-02-03 22:13:49 · 635 阅读 · 0 评论 -
《统计学习方法》第十章总结
隐马尔可夫模型是用于标注问题的统计学习模型,描述由隐藏的马尔可夫链随机生成观测序列的过程,属于生成模型。观测序列的生成隐马尔可夫模型的三个基本问题对于第一个问题,有三个计算算法:理论上可行计算上不可行的直接计算法,前向算法,后向算法对于第二个问题,隐马尔可夫模型的学习,根据训练数据是包括观测序列和对应的状态序列还是只有原创 2018-02-03 21:23:39 · 386 阅读 · 0 评论 -
《统计学习方法》第九章总结
EM算法是一种迭代算法,分为两步:E步(求期望)M步(求极大)所以这一算法也称为期望极大算法EM算法的一个重要应用就是高斯混合模型的参数估计EM算法还可以解释为F函数的极大-极大算法,F函数的性质有:原创 2018-02-03 17:23:39 · 913 阅读 · 0 评论 -
《统计学习方法》第八章总结
提升方法是一种常见的统计方法,在分类问题中,她通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类的能力。提升方法AdaBoost算法强可学习:在概率近似正确学习(PAC)的框架中,一个概念(一个类),如果存在一个多项式的学习算法可以能够学习它,并且正确率很高,那么就称这个学习是强可学习的。一个概念,如果存在一个多项式的学习算法可以能够学习它,学习的正确率仅比随机猜原创 2018-02-03 16:40:33 · 466 阅读 · 0 评论 -
《统计学习方法》第二章总结
第二章主要讲的是二类分类的线性分类问题——感知机。感知机属于一种线性分类模型,属于判别模型,感知机的几何解释是一个可以用于分割两种不同数据的超平面,位于两部分的点(特征向量)分别被分为正类和负类,也被成为分离超平面。通过学习训练数据,得出w和b的值,用于预测数据输出分类结果。一个重要的概念是线性可分性和线性不可分性:感知机学习算法的原始形式:原创 2018-01-22 20:26:11 · 472 阅读 · 0 评论 -
《统计学习方法》第七章总结
支持向量机是一种二类分类模型(SVM)。它的基本模型是定义在特征空间上的最大间隔的线性分类器,间隔最大使它有别于感知机。根据数据是否线性可分分为线性可分支持向量机,线性支持向量机和非线性支持向量机。线性可分支持向量机是指数据都是线性可分的,线性支持向量机是指大部分数据是线性可分的,但是有部分数据无法线性可分。非线性支持向量机是指数据是无法线性可分的,例如椭圆内的数据和椭圆外的数据是通过椭圆这个图形原创 2018-01-28 20:28:08 · 1566 阅读 · 0 评论