NLP(二)——数学基础

一、概率论

1、概率

三条公理:
(1)非负性: P ( A ) > = 0 P(A)>= 0 P(A)>=0
(2)规范性: P ( Ω ) = 1 P(Ω)=1 P(Ω)=1
(3)可列可加性: P ( ∑ i = 0 n A i ) P(\sum_{i=0}^nA_i) P(i=0nAi)= ∑ i = 0 n \sum_{i=0}^n i=0n P ( A i ) P(A_i) P(Ai)

2、最大似然估计

用相对频率作为概率的估计值,这种概率估计值的方法称为最大似然估计。
相对频率:
{ s 1 , s 2 , ⋯   , s n } \lbrace s_1,s_2,\cdots,s_n\rbrace {s1,s2,,sn}是一个样本空间,在相同条件下重复实验N次,观察到样本 s k s_k sk出现的次数 n N ( s k ) n_N(s_k) nN(sk),那么 s k s_k sk在这N次试验中的相对频率就是:
q N ( s k ) = n N ( s k ) q_N(s_k)=n_N(s_k) qN(sk)=nN(sk) / N N N
当N越来越大,相对频率 q N ( s k ) q_N(s_k) qN(sk)就越接近概率 P ( s k ) P(s_k) P(sk)

lim ⁡ x → ∞ \displaystyle\lim_{x\to\infty} xlim q N ( s k ) q_N(s_k) qN(sk) = = = P ( s k ) P(s_k) P(sk)

3、条件概率

性质:
(1)非负性: P ( A ∣ B ) ≥ 0 P(A|B)\geq0 P(AB)0

(2)规范性: P ( Ω ∣ B ) = 1 P(Ω|B)=1 P(ΩB)=1

(3)可列可加性:若 A 1 , A 2 , ⋯   , A n A_1,A_2,\cdots,A_n A1,A2,,An两两互不相容,则:
P ( ∑ i = 0 ∞ A i ∣ B ) = P(\sum_{i=0}^∞A_i|B)= P(i=0AiB)= ∑ i = 1 ∞ P ( A i ∣ B ) \sum_{i=1}^∞P(A_i|B) i=1P(AiB)

若条件 A i , A j A_i,A_j Ai,Aj条件独立,当且仅当:
P ( A i . A j ∣ B ) = P ( A i ∣ B ) ∗ P ( A j ∣ B ) P(A_i.A_j|B)=P(A_i|B)*P(A_j|B) P(Ai.AjB)=P(AiB)P(AjB)

4、贝叶斯法则

P ( B ∣ A ) = P ( A ∣ B ) ∗ P ( B ) P ( A ) P(B|A) =\frac{P(A|B)*P(B)}{P(A)} P(BA)=P(A)P(AB)P(B)
其中 P ( A ∣ B ) P(A|B) P(AB)是条件概率, P ( B ) P(B) P(B)是先验概率, P ( A ) P(A) P(A)是用全概率公式求得:
P ( A ) = ∑ i P ( A ∣ B i ) P ( B i ) P(A)=\sum_iP(A|B_i)P(B_i) P(A)=iP(ABi)P(Bi)(其中 ∑ i B i = Ω \sum_iB_i=Ω iBi=Ω
贝叶斯公式: P ( B j ∣ A ) = P ( A ∣ B j ) P ( B j ) ∑ i n P ( A ∣ B i ) P ( B i ) P(B_j|A)=\frac{P(A|B_j)P(B_j)}{\sum_i^nP(A|B_i)P(B_i)} P(BjA)=inP(ABi)P(Bi)P(ABj)P(Bj)

5、随机变量

X X X是离散型随机变量,其全部可能的值为 { a 1 , a 2 , ⋯   } \lbrace a_1,a_2,\cdots\rbrace {a1,a2,}。那么: p i = P ( X = a i ) p_i=P(X=a_i) pi=P(X=ai),上式也称为是随机变量 X X X的概率分布,此时函数: P ( X ≤ x ) = F ( x ) , − ∞ < x < ∞ P(X\leq x)=F(x),-∞<x<∞ P(Xx)=F(x),<x<
称为 X X X的分布函数。

6、二项式分布

X − B ( n , p ) = C n i p i ( 1 − p ) n − i X-B(n,p)=C_n^ip^i(1-p)^{n-i} XB(n,p)=Cnipi(1p)ni

7、联合概率分布和条件概率分布

( X 1 , X 2 ) (X_1,X_2) (X1,X2)是二维的离散随机变量, X 1 X_1 X1的取值为 a 1 , a 2 , ⋯ a_1,a_2,\cdots a1,a2, X 2 X_2 X2的取值为 b 1 , b 2 , ⋯ b_1,b_2,\cdots b1,b2,.那个 ( X 1 , X 2 ) (X_1,X_2) (X1,X2)的联合分布为: p i j = P ( X 1 = a i , X 2 = b j ) p_{ij}=P(X_1=a_i,X_2=b_j) pij=P(X1=ai,X2=bj)
P ( X 1 = a i ∣ X 2 = b j ) = P ( X 1 = a i , X 2 = b j ) P ( X 2 = b j ) P(X_1=a_i|X_2=b_j)=\frac{P(X_1=a_i,X_2=b_j)}{P(X_2=b_j)} P(X1=aiX2=bj)=P(X2=bj)P(X1=ai,X2=bj)

8、贝叶斯决策理论

分类问题有 c c c个类别,各类别的状态用 w j w_j wj表示, i = 1 , 2 , 3 , ⋯   , c i=1,2,3,\cdots,c i=1,2,3,,c;对应于各个类别 w i w_i wi出现的先验概率 p ( w i ) p(w_i) p(wi);在特征空间中观察到某一个向量 x = [ x 1 , x 2 , ⋯   , x d ] x=[x_1,x_2,\cdots,x_d] x=[x1,x2,,xd] d d d维空间的某一点,其条件概率 p ( x ∣ w i ) p(x|w_i) p(xwi)已知,那么利用贝叶斯公式求解后验概率 p ( w i ∣ x ) p(w_i|x) p(wix)如下:
P ( w i ∣ x ) = P ( x ∣ w i ) P ( w i ) ∑ j = 0 c P ( x ∣ w j ) P ( w j ) P(w_i|x)=\frac{P(x|w_i)P(w_i)}{\sum_{j=0}^cP(x|w_j)P(w_j)} P(wix)=j=0cP(xwj)P(wj)P(xwi)P(wi)
下面介绍两个贝叶斯决策规则:
1、基于最小错误率的贝叶斯决策规则:
(1)如果 p ( w i ∣ x ) = m a x ( p ( w j ∣ x ) ) , j = 1 , 2 , ⋯   , c p(w_i|x)=max(p(w_j|x)),j=1,2,\cdots,c p(wix)=max(p(wjx)),j=1,2,,c,那么 x ∈ w i x\in w_i xwi
(2)如果 p ( x ∣ w i ) p ( w i ) = m a x ( p ( x ∣ w j ) p ( w j ) ) , j = 1 , 2 , ⋯   , c p(x|w_i)p(w_i)=max(p(x|w_j)p(w_j)),j=1,2,\cdots,c p(xwi)p(wi)=max(p(xwj)p(wj)),j=1,2,,c,那么 x ∈ w i x\in w_i xwi
(3)如果 l ( x ) = p ( x ∣ w 1 ) p ( x ∣ w 2 ) > p ( w 2 ) p ( w 1 ) , j = 1 , 2 , ⋯   , c l(x)=\frac{p(x|w_1)}{p(x|w_2)}>\frac{p(w_2)}{p(w_1)},j=1,2,\cdots,c l(x)=p(xw2)p(xw1)>p(w1)p(w2),j=1,2,,c,那么 x ∈ w 1 x\in w_1 xw1否则 x ∈ w 2 x\in w_2 xw2
即: P ( e ) = 1 − P ( w i ∣ X ) P(e)=1-P(w_i|X) P(e)=1P(wiX)
2、基于最小风险的贝叶斯决策规则:
设置了损失函数 λ j ( i ) = λ ( a i ∣ w j ) \lambda_j^{(i)}=\lambda(a_i|w_j) λj(i)=λ(aiwj)表示观测值X属于j类而被误判为i类的损失权重。
观测值X被判断为i类的平均损失为: R ( a i ∣ X ) = ∑ j = 1 c λ ( a i ∣ w j ) P ( w j ∣ x ) R(a_i|X)=\sum_{j=1}^c\lambda(a_i|w_j)P(w_j|x) R(aiX)=j=1cλ(aiwj)P(wjx)
R ( a k ∣ X ) = m i n j = 1 , ⋯   , c R ( a j ∣ X ) R(a_k|X)=min_{j=1,\cdots,c}R(a_j|X) R(akX)=minj=1,,cR(ajX)
当损失函数是0-1损失函数时,基于最小风险的贝叶斯决策等价于基于最小错误的贝叶斯决策。此时的平均损失为: R ( a i ∣ X ) = ∑ j = 1 , j ≠ i c P ( w j ∣ x ) = 1 − m a x P ( w i ∣ x ) R(a_i|X)=\sum_{j=1,j\neq i}^cP(w_j|x)=1-maxP(w_i|x) R(aiX)=j=1,j=icP(wjx)=1maxP(wix)

9、期望和方差

离散型:在这里插入图片描述
连续型:
在这里插入图片描述
方差: E ( X ) = E ( X 2 ) − E 2 ( X ) E(X)=E(X^2)-E^2(X) E(X)=E(X2)E2(X)

二、信息论

1、熵

定义: H ( X ) = − ∑ x ∈ R p ( x ) l o g 2 p ( x ) H(X)=-\sum_{x\in R}p(x)log_2p(x) H(X)=xRp(x)log2p(x)
一个随机变量的熵越大,它的不确定性也就越大。那么正确估计其值的可能性就越小,所以说越不确定的随机变量就越需要大的信息量来进行确定。
在已知部分知识的前提下,对未知分布最合理的推断就是符合已知知识最不确定或最大随机的推断。

2、联合熵和条件熵

(1)联合熵定义:
随机变量X,Y服从 p ( x , y ) p(x,y) p(x,y)的联合分布,X,Y的联合熵为:
H ( X , Y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g 2 p ( x , y ) H(X,Y)=-\sum_{x\in X}\sum_{y\in Y}p(x,y)log_2p(x,y) H(X,Y)=xXyYp(x,y)log2p(x,y)
联合熵实际上描述了一对随机变量平均所需要的信息量。

给定随机变量X的情况下,随机变量Y的条件熵为:
H ( Y ∣ X ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) l o g 2 p ( y ∣ x ) H(Y|X)=-\sum_{x\in X}\sum_{y\in Y}p(x,y)log_2p(y|x) H(YX)=xXyYp(x,y)log2p(yx)
下面是熵的连锁规则
H ( X , Y ) = H ( X ) + H ( Y ∣ X ) H(X,Y)=H(X)+H(Y|X) H(X,Y)=H(X)+H(YX)
推广到一般情况:
H ( X 1 , X 2 , , ⋯   , X n ) = H ( X 1 ) + H ( X 2 ∣ X 1 ) + ⋯ + H ( X n ∣ X 1 , X 2 , ⋯   , X n − 1 ) H(X_1,X_2,,\cdots,X_n)=H(X_1)+H(X_2|X_1)+\cdots+H(X_n|X_1,X_2,\cdots,X_{n-1}) H(X1,X2,,,Xn)=H(X1)+H(X2X1)++H(XnX1,X2,,Xn1)
熵率 H r a t e = 1 n H ( X 1 n ) = − 1 n ∑ x 1 n p ( x 1 n ) l o g p ( x 1 n ) H_{rate}=\frac{1}{n}H(X_{1n})=-\frac{1}{n}\sum_{x_{1n}}p(x_{1n})logp(x_{1n}) Hrate=n1H(X1n)=n1x1np(x1n)logp(x1n)
其中, X 1 n = { X 1 , X 2 , ⋯   , X n } X_{1n}=\lbrace X_1,X_2,\cdots,X_n\rbrace X1n={X1,X2,,Xn}

3、互信息

定义:这个差叫做X,Y的互信息,记作 I ( X ; Y ) , I ( X ; Y ) ≥ 0 I(X;Y),I(X;Y)\geq0 I(X;Y)I(XY)0 H ( X ) − H ( X ∣ Y ) = H ( Y ) − H ( Y ∣ X ) H(X)-H(X|Y)=H(Y)-H(Y|X) H(X)H(XY)=H(Y)H(YX)
这个差量表示的是知道Y的值后,X的不确定性减少的量,也就是Y的值透漏了多少关于X的信息量。
在这里插入图片描述
I ( X ; Y ) = ∑ x , y p ( x , y ) l o g p ( x , y ) p ( x ) p ( y ) I(X;Y)=\sum_{x,y}p(x,y)log\frac{p(x,y)}{p(x)p(y)} I(X;Y)=x,yp(x,y)logp(x)p(y)p(x,y)
证明过程:
在这里插入图片描述
自信息(熵): H ( X ) = H ( X ) − H ( X ∣ X ) = I ( X ; X ) , H ( X ∣ X ) = 0 H(X)=H(X)-H(X|X)=I(X;X),H(X|X)=0 H(X)=H(X)H(XX)=I(X;X),H(XX)=0
互信息度量的是两个随机变量之间的统计相关性。在自然语言处理中经常用互信息判断两个对象之间的关系,如根据主题类别和词汇间互信息大小进行特征词的抽取。
互信息的连锁规则: I ( X ; Y ∣ Z ) = I ( ( X ; Y ) ∣ Z ) = H ( X ∣ Z ) − H ( X ∣ Y , Z ) I(X;Y|Z)=I((X;Y)|Z)=H(X|Z)-H(X|Y,Z) I(X;YZ)=I((X;Y)Z)=H(XZ)H(XY,Z)
I ( X 1 n ; Y ) = ∑ i = 1 n I ( X i ; Y ∣ X 1 , ⋯   , X i − 1 ) I(X_{1n};Y)=\sum_{i=1}^nI(X_i;Y|X_1,\cdots,X_{i-1}) I(X1n;Y)=i=1nI(Xi;YX1,,Xi1)

4、相对熵

相对熵又称为KL距离。

5、交叉熵

6、困惑度

7、噪声信道模型

三、SVM

1、线性分类

2、线性不可分

3、构造核函数

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值