自然语言处理菜鸟学习笔记（一）

最新推荐文章于 2023-12-26 20:30:10 发布

_我走路带风

最新推荐文章于 2023-12-26 20:30:10 发布

阅读量579

点赞数 4

分类专栏：自然语言自然语言处理（NLP）菜鸟学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36652619/article/details/83781013

版权

自然语言同时被 2 个专栏收录

61 篇文章 4 订阅

订阅专栏

自然语言处理（NLP）菜鸟学习笔记

11 篇文章 3 订阅

订阅专栏

数学基础

1.概率论基础：

• 统计自然语言处理的目标是对自然语言领域的数据进行统计推理；

• 统计推理通常由两个步骤来完成：首先，提取依照某些未知概率分布所产生的数据，然后对这些数据分布进行某些推理.

1.1样本空间

通常把随机试验的每一个可能结果称为一个样本点，样本点的全体称为样本空间用Ω表示,例：

投掷一枚硬币的实验中，只有两个输出：正面，反面，样本空间为： Ω={正面，反面}

投掷骰子的试验中，有6个样本点：1点，2点,…,6点，样本空间为： Ω={1,2,3,4,5,6}

样本空间的子集成为事件，如：

投掷骰子的试验中，“点数小于5的偶数”事件,设用 A表示，则：A= ?

A= {2, 4}

1.2概率

概率函数是从随机试验中的事件到实数域[0,1] 的映射函数，用以表示事件发生的可能性

例：投掷骰子的试验中，“点数小于5的偶数”事件的概率为：?

P(A)=2/6=1/3

1.3独立

两个事件A,B同时发生的概率为事件A,B的交集的概率，P(A∩B)

两个事件A，B独立，则满足： P(A∩B)=P(A)·P(B)

例：投掷骰子的试验中，事件A表示被2整除的数，事件B 表示被3整除的数，则：A=? , P(A)=?, B=? , P(B)=?

A={2,4,6}, P(A)=1/2 B={3,6}, P(B)=1/3

即被2整除也被3整除的点数，即：

A∩B={6}, P(A∩B)=1/6

显然：P(A∩B)=P(A)*P(B) 所以：事件A与事件B独立

1.4条件概率

• 先验概率(prior probability)

不考虑已知知识对概率值的影响，原有的概率值称为事件的先验概率

• 后验概率(posterior probability)

加入已知知识后，原有的概率值将发生变化，称为事件的后验概率.

• 条件概率 (conditional probability)

P(A|B)在已知事件B发生的基础上，判断事件A发生的概率，这个叫条件概率，且：

P(A|B) = $p(A\cap B)/P(B)$

其中 $P(A\cap B)$ 代表两件事情同时发生

这里：P(A)称为先验概率，P(A|B)称为后验概率

依据条件概率，有：一般形式为： $P(A\cap B)$ = P(B)P(A| B) = P(A)P(B | A)

一般形式为：

若事件A1，A2， …,An互相独立，则：

1.5贝叶斯定理

（ps：贝叶斯对于自然语言是比较重要的）

依据： P(B)⋅P(A | B) = $P(A\cap B)$ = P(A)⋅ P(B | A)

得到贝叶斯公式：P(A | B) = P(A) P(B| A) / P(B)

贝叶斯定理实际是概率转换公式，求P(A|B)可以转换为计算P(B|A)

1.6随机变量

随机变量是一个简单的样本空间到实数域集合的映射函数

随机变量可以是映射到实数域集合的连续型随机变量或映射到整数域集合的离散型随机变量

1.7离散型随机变量

如投硬币打赌，出现正面赢1元钱，反面则输一元钱，记赢钱数为随机变量X，则X作为样本空间Ω={正面，反面}

1.8连续性随机变量

1.9标准分布

二项分布我就不介绍了，这里介绍一下正态分布

当描述世界上很多事物时，如人的身高或智商，我们将得到类似报纸传媒中经常提到的钟形曲线，在统计学中称为正态分布

正态曲线首次由法国数学家棣莫弗(Abrahma de Moivre)首先发现，德国数学家高斯第一个引入正态分布的概念。

因此，正态分布也常被称为高斯分布

在许多统计应用中，我们用连续的正太分布函数来近似离散的二项分布。

但，对一些稀有事件，如假设事件为短语“shade tree mechanics”在文本中的出现次数，则，即使是在大规模文本中，这个短语的出现频率也很小。因此，如果用正态函数曲线取近似二项分布，结果会有较大误差

标准分布在NLP中的应用：

• 通常，在自然语言处理中，对于某个语言事件的概率我们是不知道的；

• 因此，对于某一个语言模型，我们需要去估计这个概率；

• 那么，通常可以利用对已有数据样本的观察来寻找这种估计。

可以通过计算某个事件发生的次数来计算相对概率：

N表示实验的次数，C(u)是N次实验中事件u出现的次数；

通常，这种相对概率倾向于稳定在某些数附近，而这些数可以通过概率分布函数来估计，例如：正态分布、二项分布等；

2.信息论基础：

2.1熵

熵的定义

假设X是一个离散型随机变量，其概率分布为 p(x)=P(X=x),x∈R，则X的熵H(X)定义为：

熵表示单个随机变量的不确定性的均值，随机变量的熵越大，它的不确定性越大，即能正确估计其值得概率越小

熵的例子

假设抛出一个具有8个面的筛子，那么实验结果的熵值为：

随机变量的熵可以看做传输该随机变量表示的基本事件所需要的平均信息长度，即：如果我们希望以最有效的编码方式传送结果，最好的方法是用3个比特表示投筛子的结果

上面这一句话说的很晕，那么，打个例子：我们要表示八面筛子的结果只需要：111,110,100,001,011,101,010,000，也就是三个比特表示投色子的结果

熵的三个属性：

• H(X)>=0

• H(X)=0, 当且仅当随机变量X的值是确定的，没有任何信息量可言

• 熵值随着信息长度的增加而增加

2.2联合熵

如果(X,Y)是一对离散随机变量，其联合概率分布密度函数为p(x,y), 则：(X,Y)的联合熵 H(X,Y)定义为：

本菜鸟学习不好，如有不妥望各位大佬指点

如要转载请说明原文：https://blog.csdn.net/qq_36652619/article/details/83781013

_我走路带风

关注

4
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
自然语言处理菜鸟学习笔记（一）

数学基础 1.概率论基础：• 统计自然语言处理的目标是对自然语言领域的数据进行统计推理；• 统计推理通常由两个步骤来完成：首先，提取依照某些未知概率分布所产生的数据，然后对这些数据分布进行某些推理.1.1样本空间通常把随机试验的每一个可能结果称为一个样本点，样本点的全体称为样本空间用Ω表示,例：投掷一枚硬币的实验中，只有两个输出：正面，反面，样本空间为： Ω...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

_我走路带风 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。