统计自然语言处理2----数学基础（一）

本文链接：https://blog.csdn.net/u010626937/article/details/77159585

前言

　　要想从本质上深入理解自然语言处理、机器学习以及深度学习等算法，就需要你有强硬的数学基础，从原理到实践，知根知底。在此，我们只是一个入门级，所以我们暂且掌握以下数学基础，就ok。

概率论基础

概率

　　概率论是从随机试验中的事件到实数域的函数，用以表示事件发生的可能性。如果用P(A)作为事件A的概率， $\Omega$ 是实验的样本空间，则概率函数必须满足如下公理：

公理1： $P(A)\geq 0$
公理2： $P(\Omega )= 1$
公理3：如果对任意的i和j(i不等于j)，事件 $A_i$ 和 $A_j$ 不相交 $(A_i\cap A_j=\O )$ ，则有： $P(\bigcup_{i=0}^{{\color{Red} \bowtie }})=\sum_{i=0}^{\bowtie }P(A_i)$

最大似然估计（likehood estimation）

　　如果一个试验的样本空间是 $\left \{ s_1,s_2,...,s_n \right \}$ ，在相同情况下重复实验N次，观察到样本 $s_k$ 的次数为 $n_N(s_k)$ ,则 $s_k$ 的相对频率为： $q_N(s_k)=\frac{n_N(s_k)}{N}$ 。由于 $\sum_{i=1}^{n}n_N(s_k)=N$ ，因此， $\sum_{i=1}^{n}q_N(s_k)=1$ 。当N越来越大时，相对频率 $q_N(s_k)=\frac{n_N(s_k)}{N}$ 就越来越接近sk的概率P(sk)。事实上， $\lim_{N\rightarrow \infty }q_N(s_k)=P(s_k)$ 。因此，相对频率常被用作概率的估计值，这种概率值的估计方法称为最大似然估计值。

条件概率

　　如果A和B是样本空间 $\Omega$ 上的两个事件，P(B)>0,那么在给定B时A的条件概率为P(A|B)为：

　　条件概率P(A|B)给出了在已知事件B发生的情况下，事件A的概率。一般地，P(A|B)不等于P(A)，除非A和B相互独立，P(A|B)=P(A)。

全概率公式

　　设 $\Omega$ 为试验E的样本空间， $B_1,B_2,...B_n$ 为 $\Omega$ 的一组事件，且他们两两互斥，且每次试验中至少发生一个。即：
　　这里写图片描述
　　则称 $B_1,B_2,...B_n$ 为样本空间 $\Omega$ 的一个划分。
　　设A为 $\Omega$ 的一个划分，且P(Bi)>0(i=1,2,…,n)，则全概率公式为：
　　

贝叶斯法则（Bayes’ theorem）

　　如果A为样本空间 $\Omega$ 的事件， $B_1,B_2,...B_n$ 为 $\Omega$ 的一个划分，且P(A)>0,P(Bi)>0（i=1,2,…,n），那么
　　这里写图片描述

这里写图片描述

例2-2：假设某一种特殊的句法结构很少出现，平均大
约每100000个句子中才可能出现一次。我们开发了一个程
序来判断某个句子中是否存在这种特殊的句法结构。如果
句子中确实含有该特殊句法结构时，程序判断结果为“存在”
的概率为0.95。如果句子中实际上不存在该句法结构时，程
序错误地判断为“存在”的概率为0.005。那么，这个程序测
得句子含有该特殊句法结构的结论是正确的概率有多大？

这里写图片描述

二项式分布（binomial distribution）

　　当重复一个只有两种输出（假定为 $\bar{A}$ 或A）的试验（伯努利试验）， A在一次实验中发生的概率为p，现把
实验独立地重复n次。如果用X表示A在这n次实验中发生的次数，那么，X＝0，1，… ，n。
考虑事件{X=i}，如果这个事件发生，必须在这n次的原始记录中有i个A，n－i个 $\bar{A}$ 。
这里写图片描述
A可以出现在n个位置中的任何一个位置，所以，结果序列有 $\binom{n}{i}$ 种可能。由此，可以得出：

X所遵从的概率分布称为二项式分布并记为：X ~ B(n, p)。在自然语言处理中，我们常常以句子为处理单位。一般地，我们假设一个语句独立于它前面的其它语句，句子的概率分布近似地认为符合二项式分布。

贝叶斯决策理论（Bayesian decision theory）

　　假设研究的分类问题有c个类别，各类别的状态用wi表示，i = 1, 2, … , c；对应于各个类别wi出现的先验概率为P(wi)；在特征空间已经观察到某一向量 $\bar{x}=[x_1,x_2,...,x_d]^T$ 是d 维特征空间上的某一点，且条件概率密度函数 $P(\bar{x}|w_i)$ 是已知的。那么，利用贝叶斯公式我们可以得到后验概率