机器学习（白板推导学习）

jiangchao98

已于 2022-08-23 00:59:08 修改

阅读量316

点赞数

分类专栏：机器学习文章标签：机器学习

于 2022-03-06 22:55:15 首次发布

本文链接：https://blog.csdn.net/jiangchao98/article/details/123265835

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

在自然语言处理中，概率图模型极为重要。在中文分词、词性标注、命名实体识别等诸多场景中有着广泛的应用。

概率图模型分为：贝叶斯网络（Bayesian Network）【有向图结构】和马尔可夫网络（Markov Network）【无向图结构】

概率图模型包含：朴素贝叶斯模型、最大熵模型、隐马尔可夫模型、条件随机场、主题模型

概率图模型设计：表示、推断、参数学习三大问题

1、HMM VS NB、GMM

朴素贝叶斯模型（NB）：目标函数后验概率最大化。贝叶斯网络中应当熟悉因子分解和条件独立性判断

高斯混合模型（GMM）：“混合”表示观测变量x_{i} 由多个隐变量y_{k}产生

GMM也是一种常见的聚类算法，使用EM算法进行迭代计算， GMM假设每个簇的分布服从高斯分布

隐马尔可夫模型（HMM）：当贝叶斯网络中的y_{k}变为隐变量时，即可得到“混合”的GMM模型，当GMM中的隐变量展开为时间序列时，即可得到HMM，一个参数、两个假设、三个问题。

2、CRF VS LR、ME

最大熵模型由最大熵原理导出，最大熵原理是概率学习和估计的一个准则。最大熵原理认为在所有可能的概率模型的集合中，熵最大的模型是最好的模型。最大熵模型的学习等价于约束最优化问题：最大熵模型最终可以归结为学习最佳的参数w

逻辑回归LR是最大熵模型ME的一个特例，LR和ME均属于对数线性模型。

条件随机场CRF可以看作是最大熵模型ME在时间序列上的延伸

3、HMM、MEMM VS CRF

HMM是有向图模型，是生成模型；HMM有两个假设：一阶马尔科夫假设和观测独立性假设；但对于序列标注问题不仅和单个词相关，而且和观察序列的长度，单词的上下文，等等相关。

MEMM（最大熵马尔科夫模型）是有向图模型，是判别模型；MEMM打破了HMM的观测独立性假设，MEMM考虑到相邻状态之间依赖关系，且考虑整个观察序列，因此MEMM的表达能力更强；但MEMM会带来标注偏置问题：由于局部归一化问题，MEMM倾向于选择拥有更少转移的状态。这就是标记偏置问题。

CRF模型是无向图模型，是判别模型；解决了标注偏置问题，去除了HMM中两个不合理的假设，当然，模型相应得也变复杂了。

HMM、MEMM和CRF的优缺点比较：

a）与HMM比较。CRF没有HMM那样严格的独立性假设条件，因而可以容纳任意的上下文信息。特征设计灵活（与ME一样）

b）与MEMM比较。由于CRF计算全局最优输出节点的条件概率，它还克服了最大熵马尔可夫模型标记偏置（Label-bias）的缺点。

c）与ME比较。CRF是在给定需要标记的观察序列的条件下，计算整个标记序列的联合概率分布，而不是在给定当前状态条件下，定义下一个状态的状态分布.

首先，CRF，HMM(隐马模型)，MEMM(最大熵隐马模型)都常用来做序列标注的建模，像分词、词性标注，以及命名实体标注
隐马模型一个最大的缺点就是由于其输出独立性假设，导致其不能考虑上下文的特征，限制了特征的选择
最大熵隐马模型则解决了隐马的问题，可以任意选择特征，但由于其在每一节点都要进行归一化，所以只能找到局部的最优值，同时也带来了标记偏见的问题，即凡是训练语料中未出现的情况全都忽略掉。
条件随机场则很好的解决了这一问题，他并不在每一个节点进行归一化，而是所有特征进行全局归一化，因此可以求得全局的最优值。

参考：nlp中的概率图模型 - 知乎 (zhihu.com)

视频介绍：【机器学习】【白板推导系列】【合集 1～33】_哔哩哔哩_bilibili

概率论基础知识

线性回归：

最小二乘法
正则化

线性分类：

感知机（错误驱动）
线性判别分析fisher（类内小、类间大）
逻辑回归（线性回归加激活函数）

支持向量机

概率图模型

隐马尔可夫模型

条件随机场

概率统计与应用数学

条件概率：在已知事件B发生的情况下，事件A发生的概率称为条件概率 $P(A | B)$

$P(A | B) = \frac{P(AB)}{P(B)}, P(B) > 0$ , $P(AB) = P(B)P(A | B) = P(A) P (B | A)$

全概率公式：事件A的全概率公式表示为

$P(A) = \sum_{i = 1}^{n}P(AB_{i}) = \sum_{i = 1}^{n}P(B_{i})P(A | B_{i})$

贝叶斯公式：

$P(B_{i}|A) = \frac{P(B_{i}) P(A|B_{i})}{P(A)} = \frac{P(B_{i}) P(A | B_{i})}{ \sum_{i = 1}^{n} P(B_{i}) P(A | B_{i})}$

贝叶斯决策理论是把贝叶斯公式应用于分类问题的基本理论之一。利用贝叶斯公式可以得到后验概率，贝叶斯公式的目的是将已知的先验概率转化为后验概率。

如何通俗的理解联合概率与条件概率

参数估计：

利用从总体中抽取样本的方法估计得到总体分布中未知参数的方法，叫做参数估计。一般而言分为点估计和区间估计。常见的参数估计的方法：矩估计方法、最小二乘估计方法、最大似然估计方法

最大似然估计

最大似然估计的目的就是：利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值。

极大似然估计详解

信息熵

熵简单地说是对信息论中度量不确定性和无序程度地一种测度。熵值越大，就代表信息越混乱和不确定。反过来说，熵值越小，所代表地信息则更加有序和规范。

熵的定义：离散型随机变量X的概率p(x), X的熵H(X)为： $H(X) = - \sum_{x \in R}^{} p(x) log_{2}p(x)$

二元信息熵可以简单地表示为： $H(X) = -p(x)log_{2}p(x) - (1 - p(x))log_{2}(1 - p(x))$ (?)

线性回归

最小二乘法

最小二乘法的本质是什么？

最小二乘估计 - 知乎 (zhihu.com)

逻辑回归

参考：逻辑回归 logistics regression 公式推导 - 知乎 (zhihu.com)

就是 sigmoid 的激活值为什么是一个 "后验概率" 。

感知机

参考：

什么是感知机？

机器学习感知机

证明感知机原始形式的收敛性（略）

感知机的原始形式以及对偶形式的对比：

如何理解感知机学习算法的对偶形式？

SVM

Hard-Margin SVM

约束条件：

$\underset{w, b}{min} \frac{1}{2} w^{T}w$

$s.t. \underset{i = 1, 2, .., N}{y_{i}} (w^{T}x_{i} + b) \geqslant 1$

Soft-Margin SVM

soft：允许一点点错误， $min \frac{1}{2} w^{T}w + loss$ ， loss取距离（hinge loss） $Loss = max\{0, 1 - y_{i}(w^{T}x_{i} + b)\}$

约束条件：

$\xi_{i} = 1 - y_{i}(w^{T}x_{i} + b), \xi_{i} \geqslant 0$

$\underset{w, b}{min} \frac{1}{2} w^{T}w + C\sum_{i = 1}^{N} \xi _{i}$

$s.t. \underset{i = 1, 2, .., N}{y_{i}} (w^{T}x_{i} + b) \geqslant 1 - \xi_{i}$

非线性SVM

数据从低维向高维做映射（异或问题）

$x_{i} \rightarrow \varphi (x_{i})$ 高维映射【把一个数据集映射到无限维，一定可以线性可分】

（1）将非线性转换成线性 低维转换成高维

（2）找出对应的核函数 高维转换成低维 令 $k(x_{i}, x_{j}) = \varphi (x_{i} )^{T} \varphi(x_{j})$

$(x_{i} x_{j})^{d}, d \geq 1$ ，多项式核函数

$e^{-\frac{\left \| x_{i} - x_{j} \right \| ^{2}}{2\sigma ^{2}}}$ ，高斯核函数，无穷维向量空间

高斯核函数对两个点距离的计算

$\sigma$ 趋近于正无穷，两点之间距离d = 0，区分度下降，欠拟合

$\sigma$ 趋近于0，两点之间距离d = 2，区分度上升，过拟合

凸函数

凹凸函数本质是描述函数斜率增加减少的。语义上的凸为正，代表斜率在增加（单调不减）。凹为负，代表斜率在减少（单调不增）。

凸函数的二阶导数为正。

凸优化（待学习）

凸优化笔记10：凸优化问题

KTT

Karush-Kuhn-Tucker (KKT)条件 - 知乎 (zhihu.com)

~~对于KTT中的梯度以及对偶可行性稍有疑问。~~

对偶问题

拉格朗日对偶问题（Lagrange duality）_y小川的专栏-CSDN博客_对偶问题

拉格朗日乘子法、KKT条件、对偶问题

机器学习——最优化问题、拉格朗日乘子法、KKT条件以及对偶问题（理解）

SVM(尚未完全理解)

支持向量机（SVM）

机器学习——支持向量机SVM

隐马尔可夫模型（HMM）

随机过程和马尔可夫模型

马尔科夫链是指时间、状态都是离散情况下的马尔可夫随机过程

隐马尔可夫模型（HMM）：隐马尔可夫模型也具有马尔可夫性，是隐藏状态序列为马尔科夫链的一种变形，它的观测状态并不像隐状态一样可以直接构成马尔科夫链，但可以通过隐藏状态到观测状态的转移矩阵，间接求出观测状态的概率。（隐藏状态和观测状态）

条件随机场（CRF）

语言模型与多元文法

语言模型（Language Model， LM）是指词序列的概率模型。利用语言模型可以计算词序列作为一个句子出现的概率或者对句子中下一个出现的词进行预测。

求解语言模型常用的方法包括：N-Gram模型、最大熵模型、马尔可夫模型、条件随机场模型、神经网络。

求解统计语言模型的参数，常见的方法有 N-Gram模型，决策树、最大熵模型、最大熵马尔可夫模型、条件随机场、神经网络。

词袋模型（Bag of Words, BOW）是一种基于词频的对文档进行特征提取的方法，词袋模型是将文档看作词的集合。

N-Gram模型

联合概率链规则，这种计算方式考虑每个词出现之前的所有词对当前词的影响。联合概率链规则引入马尔科夫假设后就是N-Gram模型。

数据平滑

数据平滑的本质是重新分配概率空间，适当地降低已经出现过的词序列的概率，补充给未曾出现的词序列。

加法平滑方法、Good-Turing估计法、组合平滑方法

TF-IDF算法

机器学习：生动理解TF-IDF算法 - 知乎 (zhihu.com)

jiangchao98

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习（白板推导学习）

感知机参考：什么是感知机？机器学习感知机证明感知机原始形式的收敛性（略）感知机的原始形式以及对偶形式的对比：如何理解感知机学习算法的对偶形式？SVM凸函数凹凸函数本质是描述函数斜率增加减少的。语义上的凸为正，代表斜率在增加（单调不减）。凹为负，代表斜率在减少（单调不增）。凸函数的二阶导数为正。凸优化（待学习）凸优化笔记10：凸优化问题KTTKarush-Kuhn-Tucker (KKT)条件 - 知乎 (zhihu.com).......
复制链接

扫一扫