《统计学习方法》——李航
文章平均质量分 84
本笔记仅记录《统计学习方法》中各个章节算法|模型的简要概述,比较泛泛而谈,用于应对夏令营面试可能会问的一些问题,不记录证明过程和详细的算法流程。大佬可自行绕路
笨笨sg
NEU-CS
展开
-
第十三章:无监督学习概论
类别不是事先给定的,而是从数据中自动发现,但类别的个数通常是事先给定的。低维空间不是事先给定的,而是从数据中自动发现的,其维数通常是事先给定的。降维过程中要保证样本中的信息损失最小,降维有线性的降维和非线性的降维。也就是根据数据推测生成数据的模型是啥样的。例如假设数据是由高斯混合模型生成,学习的目标是估计这个模型的参数。同监督学习一样,无监督学习的三要素也是模型、策略、算法。无监督学习可以用于数据分析或者监督学习的前处理。,因为对数据隐藏的规律的发现需要足够的观测。无监督学习是从无标注的数据中学习数据的。原创 2024-05-22 14:41:58 · 347 阅读 · 0 评论 -
第十一章:条件随机场
CRF是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型。比如用于命名实体识别,识别一个句子中的词性。条件随机场的形式包括参数化形式、简化形式、矩阵形式。原创 2024-05-21 21:35:00 · 48 阅读 · 0 评论 -
第十二章:监督学习方法总结
目录2~11章共10种监督学习算法的特点概述:适用问题:模型:学习策略:学习算法:原创 2024-05-21 21:47:17 · 363 阅读 · 0 评论 -
第十八章:概率潜在语义分析
PLSA是一种利用概率生成模型对文本集合进行话题分析的无监督算法。模型的最大特点是用隐变量表示话题;整个模型表示文本生成话题,话题生成单词,从而得到单词-文本共现数据的过程;假设每个文本由一个话题分布决定,每个话题由一个单词分布决定。原创 2024-05-22 21:46:02 · 537 阅读 · 0 评论 -
第十六章:主成分分析
PCA的主要目的是降维,所以一般选择k个线性无关变量来代替m个原有变量,使问题得以简化,并能够保留原始变量的大部分信息。(这里的信息指的是原有变量的方差,因为我们认为方差较大的数据包含更多的信息)选择k个主成分是最优选择(?上述的两个定理都是再说选择k个主成分是最优选择,具体选择k的办法,通常利用方差贡献率。和总体主成分分析一样,样本主成分分析也可以通过数据的协方差矩阵或相关矩阵的特征值分解进行,但现在常用的办法是通过数据矩阵的奇异值分解进行。原创 2024-05-22 18:29:18 · 508 阅读 · 0 评论 -
第十四章:聚类方法
第一个定义最为常用,并且由它可以推出其他三个定义。原创 2024-05-22 15:47:44 · 789 阅读 · 0 评论 -
第十七章:潜在语义分析
潜在语义分析使用的是非概率的话题分析模型。具体地,将文本几何表示为单词-文本矩阵,对单词-文本矩阵进行奇异值分解,从而得到话题向量空间,以及话题在文本向量空间的表示。除了奇异值分解外,非负矩阵分解NMF是另一种矩阵的因子分解方法,其特点是分解的矩阵非负。原创 2024-05-22 21:29:51 · 68 阅读 · 0 评论 -
第二十二章:无监督学习方法总结
本书的第2篇《非监督学习》详细介绍了八种常用的统计机器学习方法,即。此外,还简单介绍了另外三种常用的统计机器学习方法,即。这些方法通常用于。原创 2024-05-23 11:07:09 · 510 阅读 · 0 评论 -
第二十章:潜在狄利克雷分配
二项分布是多项分布的特殊情况,贝塔分布是狄利克雷分布的特殊情况。原创 2024-05-23 10:33:28 · 289 阅读 · 0 评论 -
李航《统计学习方法》学习笔记
本笔记仅记录《统计学习方法》中各个章节算法|模型的简要概述,比较泛泛而谈,用于应对夏令营面试可能会问的一些问题,不记录证明过程和详细的算法流程。大佬可自行绕路。原创 2024-05-21 21:48:24 · 965 阅读 · 0 评论 -
第二十一章:PageRank算法
历史上,PageRank 算法作为计算互联网网页重要度的算法被提出。PageRank是定义在网页集合上的一个函数,它对每个网页给出一个正实数,表示网页的重要程度,整体构成一个量,PageRank值越高,网页就越重要,在互联网搜索的排序中可能就被排在前面1。假设互联网是一个有向图,在其基础上定义随机游走模型,即一阶马尔可夫链,表示网页浏览者在互联网上随机浏览网页的过程。假设浏览者在每个网页依照连接出去的超链接以等概率跳转到下一个网页,并在网上持续不断进行这样的随机跳转,这个过程形成一阶马尔可夫链。原创 2024-05-23 10:52:40 · 846 阅读 · 0 评论 -
第十五章:奇异值分解
SVD是一种矩阵因子分解方法,是线性代数的概念,但在统计学习中被广泛使用,可以用于降维或数据压缩。任意一个m×n矩阵,都可以表示为三个矩阵的乘积(因子分解)形式,分别是m阶正交矩阵、由降序排列的非负的对角线元素组成的m×n矩形对角矩阵和n阶正交矩阵,称为该矩阵的奇异值分解。矩阵的奇异值分解一定存在,但不唯一。奇异值分解可以看作是矩阵数据压缩的一种方法,即用因子分解的方式近似地表示原始矩阵,这种近似是在平方损失意义下的最优近似。所谓正交矩阵即:①正交矩阵的列向量和行向量都是单位向量,即每个向量的长度为1;原创 2024-05-22 17:16:43 · 706 阅读 · 0 评论 -
第十章:隐马尔可夫模型
HMM是用于标注问题的统计学习模型,描述由隐藏的马尔可夫链随机生成观测序列的过程,属于生成模型。通过隐马尔可夫模型,我们可以根据观测的活动(散步和读书)推测出最可能的天气变化(隐含状态)。在这个例子中,通过三天的活动记录,我们推测出最可能的天气序列是“晴天,晴天,雨天”。隐马尔可夫模型广泛应用于类似的时间序列数据分析,比如语音识别、基因序列分析等,通过观测到的数据推测背后的隐藏状态序列。在大概了解了上述例子后,接下来就可以深入了解什么是隐马尔可夫模型了。原创 2024-05-21 21:16:28 · 722 阅读 · 0 评论 -
第十九章:马尔可夫链蒙特卡洛法
蒙特卡罗法(Monte Carlo method),也称为统计模拟方法(statistical simulationmethod),是通过从概率模型的随机抽样进行近似数值计算的方法。马尔可夫链蒙特卡罗法(Markov Chain Monte Carlo,MCMC),则是以马尔可夫链(Markovchain)为概率模型的蒙特卡罗法。马尔可夫链蒙特卡罗法构建一个马尔可夫链,使其平稳分布就是要进行抽样的分布,首先基于该马尔可夫链进行随机游走,产生样本的序列,之后使用该平稳分布的样本进行近似数值计算。原创 2024-05-22 22:46:07 · 922 阅读 · 0 评论 -
第六章:逻辑斯谛回归与最大熵模型
将最大熵原理应用到分类得到最大熵模型。原创 2024-05-20 15:05:35 · 848 阅读 · 0 评论 -
第七章:支持向量机
其中w代表法向量,b代表截距,公式整体代表超平面。核技巧的想法是,只定义核函数K,而不显示定义映射函数。通过核函数,可以将数据从输入空间(低维空间)映射到特征空间(高维空间),进而使用线性分类器进行求解。当训练样本很多的时候,SMO算法是一种求解SVM这种凸二次规划问题的快速实现算法。原创 2024-05-20 16:17:37 · 624 阅读 · 0 评论 -
第八章:提升方法
提升方法是一种常用的统计学习方法,它通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类的性能。原创 2024-05-20 17:28:10 · 44 阅读 · 0 评论 -
第九章:EM算法及其推广
概率模型中有时除了含有观测变量外,还含有隐变量或潜在变量。如果只含有观测变量,便可以直接用极大似然估计或者贝叶斯估计法估计参数。但是当模型含有隐变量时,就需要用到EM。EM算法就是含有隐变量的概率模型参数的极大似然估计或称“极大后验概率估计法”。EM算法的每次迭代由2步组成:求期望和求极大,所以称为期望极大算法。原创 2024-05-20 18:39:33 · 85 阅读 · 0 评论 -
第三章: K近邻法
一种基本分类与回归方法。大致思想就是已经获得了一个标签打好的训练数据集,分类时,对新的实例,根据其K个最近邻的训练实例的类别,通过多数表决等方式进行预测,也即没有显示的学习过程。原创 2024-05-19 16:08:29 · 567 阅读 · 0 评论 -
第四章:朴素贝叶斯法
朴素贝叶斯法时基于贝叶斯定理和特征条件独立假设的分类法。基本思想是首先基于特征条件独立假设学习输入输出的联合概率分布,然后基于此模型,对于给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。原创 2024-05-19 16:29:27 · 392 阅读 · 0 评论 -
第二章:感知机
感知机是二类分类的线性分类模型,属于判别模型。感知机学习旨在求出将训练数据进行线性划分的分离超平面,利用梯度下降法对损失函数进行极小化。是神经网络与支持向量机的基础。原创 2024-05-19 15:40:21 · 879 阅读 · 0 评论 -
第一章:统计学习及监督学习概论
统计学习及监督学习概论原创 2024-05-19 14:29:44 · 907 阅读 · 0 评论 -
第五章:决策树
一种基本的分类与回归方法,可以认为其是if-then规则的集合。特征选择、决策树的生成、决策树的修剪。原创 2024-05-20 09:44:45 · 936 阅读 · 0 评论