自然语言处理菜鸟学习笔记(一)

数学基础

 

1.概率论基础:

• 统计自然语言处理的目标是对自然语言领域的 数据进行统计推理;

• 统计推理通常由两个步骤来完成:首先,提取 依照某些未知概率分布所产生的数据,然后对 这些数据分布进行某些推理.

1.1样本空间

通常把随机试验的每一个可能结果称为一个样 本点,样本点的全体称为样本空间 用Ω表示,例:

投掷一枚硬币的实验中,只有两个输出:正面,反 面,样本空间为: Ω={正面,反面}

投掷骰子的试验中,有6个样本点:1点,2点,…,6点, 样本空间为: Ω={1,2,3,4,5,6}

样本空间的子集成为事件,如:

投掷骰子的试验中,“点数小于5的偶数”事件,设用 A表示,则:A= ?

A= {2, 4}

1.2概率

概率函数是从随机试验中的事件到实数域[0,1] 的映射函数,用以表示事件发生的可能性

例:投掷骰子的试验中,“点数小于5的偶数”事 件的概率为:?

P(A)=2/6=1/3

1.3独立

两个事件A,B同时发生的概率为事件A,B的交集的概 率,P(A∩B)

两个事件A,B独立,则满足: P(A∩B)=P(A)·P(B)

例:投掷骰子的试验中,事件A表示被2整除的数,事件B 表示被3整除的数,则:A=? , P(A)=?, B=? , P(B)=?

A={2,4,6}, P(A)=1/2 B={3,6}, P(B)=1/3

即被2整除也被3整除的点数,即:

A∩B={6}, P(A∩B)=1/6

显然:P(A∩B)=P(A)*P(B) 所以:事件A与事件B独立

1.4条件概率

• 先验概率(prior probability)

    不考虑已知知识对概率值的影响,原有的概率值称为事 件的先验概率

• 后验概率(posterior probability)

    加入已知知识后,原有的概率值将发生变化,称为事件 的后验概率.

• 条件概率 (conditional probability)

    P(A|B)在已知事件B发生的基础上,判断事件A发生的概率, 这个叫条件概率,且:

                         P(A|B)  = p(A\cap B)/P(B)

    其中P(A\cap B)代表两件事情同时发生

    这里:P(A)称为先验概率,P(A|B)称为后验概率

   依据条件概率,有: 一般形式为: P(A\cap B)= P(B)P(A| B) = P(A)P(B | A)

   一般形式为:

    若事件A1,A2, …,An互相独立,则:

1.5贝叶斯定理

(ps:贝叶斯对于自然语言是比较重要的)

依据: P(B)⋅P(A | B) = P(A\cap B) = P(A)⋅ P(B | A)

得到贝叶斯公式:P(A | B) = P(A) P(B| A) / P(B)

贝叶斯定理实际是概率转换公式,求P(A|B)可以转换 为计算P(B|A)

 

1.6随机变量

随机变量是一个简单的样本空间到实数域集合的 映射函数

随机变量可以是映射到实数域集合的连续型随机 变量 或映射到整数域集合的离散型随机变量

 

1.7离散型随机变量

如投硬币打赌,出现正面赢1元钱,反面则输 一元钱,记赢钱数为随机变量X,则X作为样 本空间Ω={正面,反面}

1.8连续性随机变量

1.9标准分布

二项分布我就不介绍了,这里介绍一下正态分布

当描述世界上很多事物时,如人的身高或智商,我 们将得到类似报纸传媒中经常提到的钟形曲线,在 统计学中称为正态分布

正态曲线首次由法国数学家棣莫弗(Abrahma de Moivre)首先发现,德国数学家高斯第一个引入正 态分布的概念。

因此,正态分布也常被称为高斯分布

在许多统计应用中,我们用连续的正太分布函数来 近似离散的二项分布。 

但,对一些稀有事件,如假设事件为短语“shade tree mechanics”在文本中的出现次数,则,即使是 在大规模文本中,这个短语的出现频率也很小。因 此,如果用正态函数曲线取近似二项分布,结果会 有较大误差

标准分布在NLP中的应用:

• 通常,在自然语言处理中,对于某个语言事件的 概率我们是不知道的;

• 因此,对于某一个语言模型,我们需要去估计这 个概率;

• 那么,通常可以利用对已有数据样本的观察来寻 找这种估计。

可以通过计算某个事件发生的次数来计算相对概 率:

                                                                    

N表示实验的次数,C(u)是N次实验中事件u出现 的次数;

通常,这种相对概率倾向于稳定在某些数附近, 而这些数可以通过概率分布函数来估计,例如: 正态分布、二项分布等;

2.信息论基础:

2.1熵

熵的定义

假设X是一个离散型随机变量,其概率分布为 p(x)=P(X=x),x∈R,则X的熵H(X)定义为:

熵表示单个随机变量的不确定性的均值,随机变量的熵越大,它的不确定性越大,即能正确估计其值得概率越小

熵的例子

假设抛出一个具有8个面的筛子,那么实验结果的熵值为:

随机变量的熵可以看做传输该随机变量表示的基本事件所 需要的平均信息长度,即:如果我们希望以最有效的编码 方式传送结果,最好的方法是用3个比特表示投筛子的结果

上面这一句话说的很晕,那么,打个例子:我们要表示八面筛子的结果只需要:111,110,100,001,011,101,010,000,也就是三个比特表示投色子的结果

熵的三个属性:

• H(X)>=0

• H(X)=0, 当且仅当随机变量X的值是确定的, 没有任何信息量可言

• 熵值随着信息长度的增加而增加

 

2.2联合熵

如果(X,Y)是一对离散随机变量,其联合概率 分布密度函数为p(x,y), 则:(X,Y)的联合熵 H(X,Y)定义为:

 

 

本菜鸟学习不好,如有不妥望各位大佬指点

如要转载请说明原文:https://blog.csdn.net/qq_36652619/article/details/83781013

  • 4
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

_我走路带风

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值