(1) 自然语言处理的预备知识

1. 概率论基本概念

1.1 概率:

概率函数三定理:

  • 非负性: P ( A ) ≥ 0 P(A) \ge 0 P(A)0
  • 规范性: P ( Ω ) = 1 P(\Omega)=1 P(Ω)=1
  • 可列可加性: P ( ⋃ i = 0 ∞ ) = ∑ i = 0 ∞ P ( A i ) \displaystyle{P(\bigcup_{i=0}^{\infty})=\sum_{i=0}^{\infty}P(A_i)} P(i=0)=i=0P(Ai)

1.2 最大似然估计:

已知数据分布,以及分布的参数 θ \theta θ, 可以根据采样出的样本估计 θ \theta θ的值:
l i k e ( θ ) = f D ( x 1 , x 2 , ⋯   , x n ∣ θ ) like(\theta) = f_D(x_1,x_2,\cdots,x_n|\theta) like(θ)=fD(x1,x2,,xnθ)
在所有 θ \theta θ的取值上, 使这个函数最大的那个值就被称为 θ \theta θ的最大似然估计.

1.3 条件概率:

P ( A ∣ B ) = P ( A ∩ B ) P ( B ) P ( A ∩ B ) = P ( A ∣ B ) P ( B ) = P ( B ∣ A ) P ( A ) P ( A 1 A 2 . . . A n ) = P ( A 1 ) P ( A 2 ∣ A 1 ) P ( A 3 ∣ A 1 A 2 ) . . . P ( A n ∣ ⋂ i = 1 n − 1 A i ) P(A|B) = \frac{P(A\cap B)}{P(B)} \\ P(A\cap B)=P(A|B)P(B)=P(B|A)P(A) \\ P(A_1A_2...A_n)=P(A_1)P(A_2|A_1)P(A_3|A_1A_2)...P(A_n|\bigcap_{i=1}^{n-1} A_i) P(AB)=P(B)P(AB)P(AB)=P(AB)P(B)=P(BA)P(A)P(A1A2...An)=P(A1)P(A2A1)P(A3A1A2)...P(Ani=1n1Ai)

1.4 贝叶斯法则

P ( B ∣ A ) = P ( B ∩ A ) P ( A ) = P ( A ∣ B ) P ( B ) P ( A ) P(B|A) = \frac{P(B\cap A)}{P(A)}=\frac{P(A|B)P(B)}{P(A)} P(BA)=P(A)P(BA)=P(A)P(AB)P(B)

全概率公式:
P ( A ) = ∑ i P ( A ∣ B i ) P ( B i ) P(A)=\sum_{i}P(A|B_i)P(B_i) P(A)=iP(ABi)P(Bi)

1.5 随机变量:

随机变量就是试验结果的函数

1.6 二项式分布:

X ∽ B ( n , p ) p i = ( i n ) p i ( 1 − p ) n − i , i = 0 , 1 , ⋯   , n X \backsim B(n,p) \\ p_i=(_i^n)p^i(1-p)^{n-i}, i=0,1,\cdots,n XB(n,p)pi=(in)pi(1p)ni,i=0,1,,n

1.7 联合概率分布和条件概率分布:

P ( X 1 = a i ∣ X 2 = b j ) = P ( X 1 = a i , X 2 = b j ) P ( X 2 = b j ) = p i j P ( X 2 = b j ) P(X_1=a_i|X_2=b_j) = \frac{P(X_1=a_i,X_2=b_j)}{P(X_2=b_j)} = \frac{p_{ij}}{P(X_2=b_j)} P(X1=aiX2=bj)=P(X2=bj)P(X1=ai,X2=bj)=P(X2=bj)pij

1.8 贝叶斯决策理论:

P ( ω i ∣ x ) = p ( x ∣ ω i ) P ( ω i ) ∑ j = 1 c p ( x ∣ ω j ) P ( ω j ) P(\omega_i|x)=\frac{p(x|\omega_i)P(\omega_i)}{\displaystyle{\sum_{j=1}^c}{p(x|\omega_j)P(\omega_j)}} P(ωix)=j=1cp(xωj)P(ωj)p(xωi)P(ωi)

1.9 期望和方差:

E ( X ) = ∑ k = 1 ∞ x k p k V a r ( X ) = E ( ( X − E ( X ) ) 2 ) E(X)=\sum_{k=1}^{\infty}x_kp_k \\ Var(X) = E((X-E(X))^2) E(X)=k=1xkpkVar(X)=E((XE(X))2)

2. 语料库与语言知识库:

语料库(corpus base)

2.1 语料库的分类

  1. 平衡语料库和平行语料库

  2. 通用语料库和专用语料库

  3. 共时语料库和历时语料库

  4. 生语料与标注语料库

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

fanqiliang630

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值