机器学习(白板推导学习)

在自然语言处理中, 概率图模型极为重要。在中文分词、词性标注、命名实体识别等诸多场景中有着广泛的应用。

概率图模型分为:贝叶斯网络(Bayesian Network)【有向图结构】和马尔可夫网络(Markov Network)【无向图结构】

概率图模型包含:朴素贝叶斯模型、最大熵模型、隐马尔可夫模型、条件随机场、主题模型

概率图模型设计:表示、推断、参数学习 三大问题

1、HMM VS NB、GMM

朴素贝叶斯模型(NB):目标函数后验概率最大化。贝叶斯网络中应当熟悉因子分解和条件独立性判断

高斯混合模型(GMM):“混合”表示观测变量x_{i} 由多个隐变量y_{k}产生

GMM也是一种常见的聚类算法,使用EM算法进行迭代计算, GMM假设每个簇的分布服从高斯分布

隐马尔可夫模型(HMM):当贝叶斯网络中的y_{k}变为隐变量时, 即可得到“混合”的GMM模型, 当GMM中的隐变量展开为时间序列时,即可得到HMM,一个参数、两个假设、三个问题。

2、CRF VS LR、ME

最大熵模型由最大熵原理导出,最大熵原理是概率学习和估计的一个准则。最大熵原理认为在所有可能的概率模型的集合中,熵最大的模型是最好的模型。最大熵模型的学习等价于约束最优化问题:最大熵模型最终可以归结为学习最佳的参数w

逻辑回归LR是最大熵模型ME的一个特例,LR和ME均属于对数线性模型。

条件随机场CRF可以看作是最大熵模型ME在时间序列上的延伸

3、HMM、MEMM VS CRF

HMM是有向图模型,是生成模型;HMM有两个假设:一阶马尔科夫假设和观测独立性假设;但对于序列标注问题不仅和单个词相关,而且和观察序列的长度,单词的上下文,等等相关。

MEMM(最大熵马尔科夫模型)是有向图模型,是判别模型;MEMM打破了HMM的观测独立性假设,MEMM考虑到相邻状态之间依赖关系,且考虑整个观察序列,因此MEMM的表达能力更强;但MEMM会带来标注偏置问题:由于局部归一化问题,MEMM倾向于选择拥有更少转移的状态。这就是标记偏置问题。

CRF模型是无向图模型,是判别模型;解决了标注偏置问题,去除了HMM中两个不合理的假设,当然,模型相应得也变复杂了。

HMM、MEMM和CRF的优缺点比较:

a)与HMM比较。CRF没有HMM那样严格的独立性假设条件,因而可以容纳任意的上下文信息。特征设计灵活(与ME一样)

b)与MEMM比较。由于CRF计算全局最优输出节点的条件概率,它还克服了最大熵马尔可夫模型标记偏置(Label-bias)的缺点。

c)与ME比较。CRF是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,而不是在给定当前状态条件下,定义下一个状态的状态分布.

首先,CRF,HMM(隐马模型),MEMM(最大熵隐马模型)都常用来做序列标注的建模,像分词、词性标注,以及命名实体标注
隐马模型一个最大的缺点就是由于其输出独立性假设,导致其不能考虑上下文的特征,限制了特征的选择
最大熵隐马模型则解决了隐马的问题,可以任意选择特征,但由于其在每一节点都要进行归一化,所以只能找到局部的最优值,同时也带来了标记偏见的问题,即凡是训练语料中未出现的情况全都忽略掉。
条件随机场则很好的解决了这一问题,他并不在每一个节点进行归一化,而是所有特征进行全局归一化,因此可以求得全局的最优值。

参考:nlp中的概率图模型 - 知乎 (zhihu.com)

视频介绍:【机器学习】【白板推导系列】【合集 1~33】_哔哩哔哩_bilibili

概率论基础知识

线性回归:

  • 最小二乘法
  • 正则化

线性分类:

  • 感知机(错误驱动)
  • 线性判别分析fisher(类内小、类间大)
  • 逻辑回归(线性回归加激活函数)

支持向量机

概率图模型

隐马尔可夫模型

条件随机场

概率统计与应用数学

条件概率:在已知事件B发生的情况下,事件A发生的概率称为条件概率P(A | B)

P(A | B) = \frac{P(AB)}{P(B)}, P(B) > 0P(AB) = P(B)P(A | B) = P(A) P (B | A)

全概率公式:事件A的全概率公式表示为

P(A) = \sum_{i = 1}^{n}P(AB_{i}) = \sum_{i = 1}^{n}P(B_{i})P(A | B_{i})

贝叶斯公式

P(B_{i}|A) = \frac{P(B_{i}) P(A|B_{i})}{P(A)} = \frac{P(B_{i}) P(A | B_{i})}{ \sum_{i = 1}^{n} P(B_{i}) P(A | B_{i})}

贝叶斯决策理论是把贝叶斯公式应用于分类问题的基本理论之一。利用贝叶斯公式可以得到后验概率,贝叶斯公式的目的是将已知的先验概率转化为后验概率。

如何通俗的理解联合概率与条件概率

参数估计

利用从总体中抽取样本的方法估计得到总体分布中未知参数的方法,叫做参数估计。一般而言分为点估计和区间估计。常见的参数估计的方法:矩估计方法最小二乘估计方法最大似然估计方法

最大似然估计

最大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。

极大似然估计详解

信息熵

熵简单地说是对信息论中度量不确定性和无序程度地一种测度。熵值越大,就代表信息越混乱和不确定。反过来说,熵值越小,所代表地信息则更加有序和规范。 

熵的定义:离散型随机变量X的概率p(x), X的熵H(X)为:H(X) = - \sum_{x \in R}^{} p(x) log_{2}p(x)

二元信息熵可以简单地表示为:H(X) = -p(x)log_{2}p(x) - (1 - p(x))log_{2}(1 - p(x))(?)

线性回归

 最小二乘法

最小二乘法的本质是什么?

最小二乘估计 - 知乎 (zhihu.com)

逻辑回归

参考:逻辑回归 logistics regression 公式推导 - 知乎 (zhihu.com)

就是 sigmoid 的激活值为什么是一个 "后验概率" 。

感知机

参考:

什么是感知机?  

机器学习感知机

证明感知机原始形式的收敛性(略)

感知机的原始形式以及对偶形式的对比:

 如何理解感知机学习算法的对偶形式?

SVM

Hard-Margin SVM

约束条件:

\underset{w, b}{min} \frac{1}{2} w^{T}w

s.t. \underset{i = 1, 2, .., N}{y_{i}} (w^{T}x_{i} + b) \geqslant 1

Soft-Margin SVM

soft:允许一点点错误, min \frac{1}{2} w^{T}w + loss, loss取距离(hinge loss)Loss = max\{0, 1 - y_{i}(w^{T}x_{i} + b)\}

约束条件:

\xi_{i} = 1 - y_{i}(w^{T}x_{i} + b), \xi_{i} \geqslant 0

\underset{w, b}{min} \frac{1}{2} w^{T}w + C\sum_{i = 1}^{N} \xi _{i}

s.t. \underset{i = 1, 2, .., N}{y_{i}} (w^{T}x_{i} + b) \geqslant 1 - \xi_{i}

非线性SVM

数据从低维向高维做映射(异或问题)

x_{i} \rightarrow \varphi (x_{i}) 高维映射【把一个数据集映射到无限维,一定可以线性可分】

(1)将非线性转换成线性 低维 转换成 高维

(2)找出对应的核函数 高维 转换成 低维 k(x_{i}, x_{j}) = \varphi (x_{i} )^{T} \varphi(x_{j})

(x_{i} x_{j})^{d}, d \geq 1, 多项式核函数

e^{-\frac{\left \| x_{i} - x_{j} \right \| ^{2}}{2\sigma ^{2}}}, 高斯核函数, 无穷维向量空间

高斯核函数对两个点距离的计算

\sigma趋近于正无穷, 两点之间距离d = 0, 区分度下降, 欠拟合

\sigma趋近于0, 两点之间距离d = 2, 区分度上升, 过拟合

凸函数

凹凸函数本质是描述函数斜率增加减少的。语义上的凸为正,代表斜率在增加(单调不减)。凹为负,代表斜率在减少(单调不增)。

凸函数的二阶导数为正。

凸优化(待学习)

凸优化笔记10:凸优化问题 

KTT

Karush-Kuhn-Tucker (KKT)条件 - 知乎 (zhihu.com)

对于KTT中的梯度以及对偶可行性稍有疑问。

对偶问题

拉格朗日对偶问题(Lagrange duality)_y小川的专栏-CSDN博客_对偶问题

拉格朗日乘子法、KKT条件、对偶问题

机器学习——最优化问题、拉格朗日乘子法、KKT条件以及对偶问题 (理解)

SVM(尚未完全理解)

支持向量机(SVM)

机器学习——支持向量机SVM

隐马尔可夫模型(HMM)

随机过程和马尔可夫模型

马尔科夫链是指时间、状态都是离散情况下的马尔可夫随机过程

隐马尔可夫模型(HMM):隐马尔可夫模型也具有马尔可夫性,是隐藏状态序列为马尔科夫链的一种变形,它的观测状态并不像隐状态一样可以直接构成马尔科夫链,但可以通过隐藏状态到观测状态的转移矩阵,间接求出观测状态的概率。(隐藏状态和观测状态)

条件随机场(CRF)

语言模型与多元文法

语言模型(Language Model, LM)是指词序列的概率模型。利用语言模型可以计算词序列作为一个句子出现的概率或者对句子中下一个出现的词进行预测。

求解语言模型常用的方法包括:N-Gram模型、最大熵模型、马尔可夫模型、条件随机场模型、神经网络。        

求解统计语言模型的参数,常见的方法有 N-Gram模型,决策树、最大熵模型、最大熵马尔可夫模型、条件随机场、神经网络。

词袋模型(Bag of Words, BOW)是一种基于词频的对文档进行特征提取的方法,词袋模型是将文档看作词的集合。

N-Gram模型

联合概率链规则,这种计算方式考虑每个词出现之前的所有词对当前词的影响。联合概率链规则引入马尔科夫假设后就是N-Gram模型。

数据平滑

数据平滑的本质是重新分配概率空间,适当地降低已经出现过的词序列的概率,补充给未曾出现的词序列。

加法平滑方法、Good-Turing估计法、组合平滑方法

TF-IDF算法

机器学习:生动理解TF-IDF算法 - 知乎 (zhihu.com)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
机器学习中,公式推导和代码实现是非常重要的部分。公式推导可以帮助我们理解算法的原理,而代码实现则是将算法应用到实际问题中的具体步骤。 在公式推导方面,我们可以使用神经网络作为例子。神经网络是一种用于解决分类和回归等问题的机器学习模型。它可以通过前向传播和反向传播来进行训练和预测。 在前向传播中,神经网络根据输入数据和权重参数计算出预测结果。具体来说,我们可以使用一系列的线性变换和激活函数来计算每个隐藏层和输出层的值。通过不断传递数据和权重,我们可以得到最终的预测结果。 在反向传播中,神经网络根据预测结果和真实标签之间的误差来更新权重参数。这个过程可以使用梯度下降法来实现。我们首先计算出损失函数对于每个权重的偏导数,然后根据偏导数的方向来更新权重。 具体的推导过程可以参考引用中的文章。文章中详细介绍了神经网络的公式推导和参数更新的推导过程。 在代码实现方面,我们可以使用Python来手动实现神经网络。可以使用NumPy等库来进行矩阵运算和激活函数的计算。具体的代码实现可以参考引用中给出的示例代码。 综上所述,机器学习的公式推导和代码实现是我们理解和应用算法的重要步骤。通过推导公式和实现代码,我们可以更深入地理解算法的原理,并将其应用到实际问题中。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [机器学习之神经网络的公式推导与python代码(手写+pytorch)实现](https://blog.csdn.net/qq_52785473/article/details/127454390)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值