统计自然语言处理书籍阅读心得二

最新推荐文章于 2024-06-28 22:03:45 发布

Mr_wuliboy

最新推荐文章于 2024-06-28 22:03:45 发布

阅读量610

点赞数

本文链接：https://blog.csdn.net/Mr_wuliboy/article/details/79831086

版权

1.自然语言处理的基本方法：

一般认为，自然语言处理中存在着两种不同的研究方法，一种是理性主义（rationalist）方法，另一种是经验主义（empiricist）方法。

理性主义方法认为，人的很大一部分语言知识是与生俱来的，由遗传决定的。在具体的自然语言问题研究中，理性主义方法主张建立符号处理系统，由人工整理和编写初始的语言知识表示体系（通常为规则），构造相应的推理程序，系统根据规则和程序，将自然语言理解为符号结构 ——该结构的意义可以从结构中的符号的意义推导出来。而经验主义的研究方法也是从假定人脑所具有的一些认知能力开始的。因此，从这种意义上讲，两种方法并不是绝对对立的。但是，经验主义的方法认为人脑并不是从一开始就具有一些具体的处理原则和对具体语言成分的处理方法，而是假定孩子的大脑一开始具有处理联（association）、模式识别（pattern recognition）和通用化（generalization）处理的能力，这些能力能够使孩子充分利用感官输入来掌握具体的自然语言结构。在系统实现方法上，经验主义方法主张通过建立特定的数学模型来学习复杂的、广泛的语言结构，然后利用统计学、模式识别和机器学习等方法来训练模型的参数，以扩大语言使用的规模。

在统计自然语言处理方法中，一般需要收集一些文本作为统计模型建立的基础，这些文本称为语料（corpus）。经过筛选、加工和标注等处理的大批量语料构成的数据库叫做语料库（corpus base）。

2.概率论有关基础：

○概率：概率（probability）是从随机试验中的事件到实数域的映射函数，用以表示事件发生的可能性。如果用P（A）作为事件A的概率，Ω是试验的样本空间，则概率函数必须满足如下三条公理：公理2-1（非负性）　P（A）≥0 公理2-2（规范性）　P（Ω）＝1 公理2-3（可列可加性）　对于可列无穷多个事件A1，A2，…，如果事件两两互不相容，即对于任意的i和j（i≠j），事件Ai和Aj不相交（Ai∩Aj＝∅），则有

○最大似然估计：如果{s1，s2，…，sn}是一个试验的样本空间，在相同的情况下重复试验N次，观察到样本sk（1≤k≤n）的次数为nN（sk），那么，sk在这N 次试验中的相对频率为：

○条件概率：如果A和B是样本空间Ω上的两个事件，P（B）＞0，那么，在给定 B时A的条件概率（conditional probability）P（A|B）为

条件概率P（A|B）给出了在已知事件B发生的情况下，事件A的概率。一般地，P（A|B）≠P（A）。根据公式（2-4），有

○贝叶斯法则：贝叶斯法则，或称贝叶斯理论（Bayesian theorem），是条件概率计算的重要依据。实际上，根据条件概率的定义公式（2-4）和乘法规则式（2-5），可得

式（2-8）右边的分母可以看作普通常量，因为我们只是关心在给定事件A的情况下可能发生事件B的概率，P（A）的值是确定不变的。故有

其中函数argmax的意思求使后面的值最大的参数。以下给出事件A的概率计算方法。首先根据乘法规则：

因此有

推广到一般形式，假设B是样本空间Ω的一个划分，即

Ω。如果

并且Bi互不相交，那么A＝

于是P（A）＝

由乘法定理可得

公式（2-10）称为全概率公式。

类似地，我们给出如下贝叶斯法则的精确描述。

下面出一道例题：假设一多义词的某一义项很少被使用，平均该词每出现 100000次这一义项才有可能被使用一次。我们开发了一个程序来判断该词出现在某个句子中时是否使用了该义项。如果句子中确实使用了该词的这一义项时，程序判断结果为“使用”的概率是0.95。如果句子中实际上没有使用该词的这一义项时，程序错误地判断为“使用”的概率是 0.005。那么，这个程序判断句子使用该词的这一特殊义项的结论是正确的概率有多大？

解：假设G表示事件“句子中确实使用了该词的这一特殊义项”，T 表示事件“程序判断的结论是该句子使用了该词的这一特殊义项”。则有

于是，可得

○随机变量：一个随机试验可能有多种不同的结果，到底会出现哪一种，存在一定的概率，即随机会而定。简单地说，随机变量（random variable）就是试验结果的函数。设X为一离散型随机变量，其全部可能的值为{a1，a2，…}。那么：

称为X的概率函数。显然，pi≥0，。有时式（2-12）也称随机变量X的概率分布，此时，函数

称为X的分布函数。

○二项式分布：略

○联合概率分布和条件概率分布：假设（X1，X2）为一个二维的离散型随机向量，X1全部可能的取值为a1，a2，…；X2全部可能的取值为b1，b2，…。那么，（X1，X2）的联合分布（joint distribution）为 pij＝P（X1＝ai，X2＝bj），　i＝1，2，…；j＝1，2，… 一个随机变量或向量X的条件概率分布就是在某种给定的条件之下 X的概率分布。考虑X1在给定X2＝bj条件下的概率分布，实际上就是求条件概率P（X1＝ai|X2＝bj）。根据条件概率的定义可得

由于P（X2＝bj）

故有

类似的

○贝叶斯决策理论：贝叶斯决策理论（Bayesian decision theory）是统计方法处理模式分类问题的基本理论之一。假设研究的分类问题有c个类别，各类别的状态用wi表示，i＝1,2，…，c；对应于各个类别wi出现的先验概率为 P（wi）；在特征空间已经观察到某一向量x，x＝［x1，x2，…，xd］T是 d维特征空间上的某一点，且条件概率密度函数p（x|wi）是已知的。那么，利用贝叶斯公式我们可以得到后验概率P（wi|x）如下：