数学基础
1.概率论基础:
• 统计自然语言处理的目标是对自然语言领域的 数据进行统计推理;
• 统计推理通常由两个步骤来完成:首先,提取 依照某些未知概率分布所产生的数据,然后对 这些数据分布进行某些推理.
1.1样本空间
通常把随机试验的每一个可能结果称为一个样 本点,样本点的全体称为样本空间 用Ω表示,例:
投掷一枚硬币的实验中,只有两个输出:正面,反 面,样本空间为: Ω={正面,反面}
投掷骰子的试验中,有6个样本点:1点,2点,…,6点, 样本空间为: Ω={1,2,3,4,5,6}
样本空间的子集成为事件,如:
投掷骰子的试验中,“点数小于5的偶数”事件,设用 A表示,则:A= ?
A= {2, 4}
1.2概率
概率函数是从随机试验中的事件到实数域[0,1] 的映射函数,用以表示事件发生的可能性
例:投掷骰子的试验中,“点数小于5的偶数”事 件的概率为:?
P(A)=2/6=1/3
1.3独立
两个事件A,B同时发生的概率为事件A,B的交集的概 率,P(A∩B)
两个事件A,B独立,则满足: P(A∩B)=P(A)·P(B)
例:投掷骰子的试验中,事件A表示被2整除的数,事件B 表示被3整除的数,则:A=? , P(A)=?, B=? , P(B)=?
A={2,4,6}, P(A)=1/2 B={3,6}, P(B)=1/3
即被2整除也被3整除的点数,即:
A∩B={6}, P(A∩B)=1/6
显然:P(A∩B)=P(A)*P(B) 所以:事件A与事件B独立
1.4条件概率
• 先验概率(prior probability)
不考虑已知知识对概率值的影响,原有的概率值称为事 件的先验概率
• 后验概率(posterior probability)
加入已知知识后,原有的概率值将发生变化,称为事件 的后验概率.
• 条件概率 (conditional probability)
P(A|B)在已知事件B发生的基础上,判断事件A发生的概率, 这个叫条件概率,且:
P(A|B) =
其中代表两件事情同时发生
这里:P(A)称为先验概率,P(A|B)称为后验概率
依据条件概率,有: 一般形式为: = P(B)P(A| B) = P(A)P(B | A)
一般形式为:
若事件A1,A2, …,An互相独立,则:
1.5贝叶斯定理
(ps:贝叶斯对于自然语言是比较重要的)
依据: P(B)⋅P(A | B) = = P(A)⋅ P(B | A)
得到贝叶斯公式:P(A | B) = P(A) P(B| A) / P(B)
贝叶斯定理实际是概率转换公式,求P(A|B)可以转换 为计算P(B|A)
1.6随机变量
随机变量是一个简单的样本空间到实数域集合的 映射函数
随机变量可以是映射到实数域集合的连续型随机 变量 或映射到整数域集合的离散型随机变量
1.7离散型随机变量
如投硬币打赌,出现正面赢1元钱,反面则输 一元钱,记赢钱数为随机变量X,则X作为样 本空间Ω={正面,反面}
1.8连续性随机变量
1.9标准分布
二项分布我就不介绍了,这里介绍一下正态分布
当描述世界上很多事物时,如人的身高或智商,我 们将得到类似报纸传媒中经常提到的钟形曲线,在 统计学中称为正态分布
正态曲线首次由法国数学家棣莫弗(Abrahma de Moivre)首先发现,德国数学家高斯第一个引入正 态分布的概念。
因此,正态分布也常被称为高斯分布
在许多统计应用中,我们用连续的正太分布函数来 近似离散的二项分布。
但,对一些稀有事件,如假设事件为短语“shade tree mechanics”在文本中的出现次数,则,即使是 在大规模文本中,这个短语的出现频率也很小。因 此,如果用正态函数曲线取近似二项分布,结果会 有较大误差
标准分布在NLP中的应用:
• 通常,在自然语言处理中,对于某个语言事件的 概率我们是不知道的;
• 因此,对于某一个语言模型,我们需要去估计这 个概率;
• 那么,通常可以利用对已有数据样本的观察来寻 找这种估计。
可以通过计算某个事件发生的次数来计算相对概 率:
N表示实验的次数,C(u)是N次实验中事件u出现 的次数;
通常,这种相对概率倾向于稳定在某些数附近, 而这些数可以通过概率分布函数来估计,例如: 正态分布、二项分布等;
2.信息论基础:
2.1熵
熵的定义
假设X是一个离散型随机变量,其概率分布为 p(x)=P(X=x),x∈R,则X的熵H(X)定义为:
熵表示单个随机变量的不确定性的均值,随机变量的熵越大,它的不确定性越大,即能正确估计其值得概率越小
熵的例子
假设抛出一个具有8个面的筛子,那么实验结果的熵值为:
随机变量的熵可以看做传输该随机变量表示的基本事件所 需要的平均信息长度,即:如果我们希望以最有效的编码 方式传送结果,最好的方法是用3个比特表示投筛子的结果
上面这一句话说的很晕,那么,打个例子:我们要表示八面筛子的结果只需要:111,110,100,001,011,101,010,000,也就是三个比特表示投色子的结果
熵的三个属性:
• H(X)>=0
• H(X)=0, 当且仅当随机变量X的值是确定的, 没有任何信息量可言
• 熵值随着信息长度的增加而增加
2.2联合熵
如果(X,Y)是一对离散随机变量,其联合概率 分布密度函数为p(x,y), 则:(X,Y)的联合熵 H(X,Y)定义为:
本菜鸟学习不好,如有不妥望各位大佬指点
如要转载请说明原文:https://blog.csdn.net/qq_36652619/article/details/83781013