NLP
第一章 绪论
第二章 数学基础
概率论基础
最大似然估计
来求一个样本集的相关概率密度函数的参数,先假定一个概率分布,再求出假定参数最可能的值。
例:设总体 X N ( μ X~N(μ X N(μ, σ 2 ) σ^2) σ2), μ μ μ, σ σ σ为未知参数, X 1 , X 2 . . . , X n X_1,X_2...,X_n X1,X2...,Xn是来自总体 X X X的样本, X 1 , X 2 . . . , X n X_1,X_2...,X_n X1,X2...,Xn是对应的样本值,求 μ μ μ与 σ 2 σ^2 σ2的最大似然估计值。
条件概率、全概率公式
贝叶斯决策理论
思想:已知类条件概率密度参数表达式和先验概率,利用贝叶斯公式转换成后验概率进行决策分类。
P
(
ω
i
∣
x
)
=
p
(
x
∣
ω
i
)
p
(
ω
i
)
p
(
x
)
P(\omega_i|x) = \frac{p(x|\omega_i)p(\omega_i)}{p(x)}
P(ωi∣x)=p(x)p(x∣ωi)p(ωi)
设w1表示学渣组(类别1),w2表示学霸组(类别2),x=0表示卷面成绩不超过90事件,x=1表示卷面成绩90+事件,U表示试卷总份数。
再设P(wi) 表示两组(类)的份数占比,那么P(w1)=0.5, P(w2)=0.5,即各占一半,此概率被称作先验概率。
再假设通过以往所有的考试信息,得出w1组得分90+的概率为0.2,w2组得分90+的概率为0.8,即P(x=1|w1)=0.2, P(x=1|w2)=0.8,此概率常被称作类的条件概率。它反映两者最本质的区别——这里代表考90+的概率,是分类时最重要的依据。
用P(x=1) 表示w1、w2两组得分90+的总概率,是一个全概率。
最终求的是90+的卷子来自w1、w2两组(类别)的概率,即P(w1|x=1)、P(w2|x=1),它也是一个条件概率,常被称作后验概率。
信息论
熵
H ( X ) = − ∑ x ∈ X p ( x ) log p ( x ) H(X) = -\sum_{x\in X}p(x)\log p(x) H(X)=−x∈X∑p(x)logp(x)
联合熵
H ( X , Y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log p ( x , y ) H(X,Y) = - \sum_{x \in X}\sum_{y \in Y}p(x,y)\log p(x,y) H(X,Y)=−x∈X∑y∈Y∑p(x,y)logp(x,y)
条件熵
H ( X ∣ Y ) − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log p ( x ∣ y ) H(X|Y) - \sum_{x \in X}\sum_{y \in Y}p(x,y)\log p(x|y) H(X∣Y)−x∈X∑y∈Y∑p(x,y)logp(x∣y)
连锁规则
H ( X , Y ) = H ( X ) + H ( Y ∣ X ) H(X,Y)= H(X) + H(Y|X) H(X,Y)=H(X)+H(Y∣X)
熵率
H r a t e = 1 n H ( X 1 … n ) = − 1 n ∑ p ( x 1 … n ) log p ( x 1 … n ) H_{rate} = \frac{1}{n}H(X_{1\dots n})=-\frac{1}{n}\sum p(x_{1\dots n})\log p(x_{1\dots n}) Hrate=n1H(X1…n)=−n1∑p(x1…n)logp(x1…n)
相对熵(KL距离)
D ( p ∣ ∣ q ) = ∑ x ∈ X p ( x ) log p ( x ) q ( x ) D(p||q) = \sum_{x\in X}p(x)\log\frac{p(x)}{q(x)} D(p∣∣q)=x∈X∑p(x)logq(x)p(x)
用来衡量两个随机分布的距离。
交叉熵
H ( X , q ) = H ( X ) + D ( p ∣ ∣ q ) H(X,q) = H(X) + D(p||q) H(X,q)=H(X)+D(p∣∣q)
其中 X ∼ p ( x ) X\sim p(x) X∼p(x)。
可定义语言
L
=
(
X
)
L=(X)
L=(X)与其模型
q
q
q的交叉熵:
H
(
L
,
q
)
=
−
lim
n
→
∞
1
n
∑
p
(
x
1
n
)
log
q
(
x
1
n
)
H(L,q) = - \lim_{n\to\infin}\frac{1}{n}\sum p(x_1^n)\log q(x_1^n)
H(L,q)=−n→∞limn1∑p(x1n)logq(x1n)
如果语言
L
L
L是稳态遍历性随机过程,
x
1
n
x_1^n
x1n是
L
L
L的样本,则有:
H
(
L
,
q
)
=
−
lim
n
→
∞
1
n
log
q
(
x
1
n
)
H(L,q) = - \lim_{n\to\infin}\frac{1}{n}\log q(x_1^n)
H(L,q)=−n→∞limn1logq(x1n)
困惑度
P P q = 2 H ( L , q ) PP_q=2^{H(L,q)} PPq=2H(L,q)
互信息
I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) = H ( Y ) − H ( Y ∣ X ) = ∑ x , y p ( x , y ) log p ( x , y ) p ( x ) p ( y ) I(X;Y) = H(X) - H(X|Y) = H(Y)-H(Y|X)=\sum_{x,y}p(x,y)\log\frac{p(x,y)}{p(x)p(y)} I(X;Y)=H(X)−H(X∣Y)=H(Y)−H(Y∣X)=x,y∑p(x,y)logp(x)p(y)p(x,y)
可以衡量两个字是一个词的概率。
人工神经网络基础
BP算法
误差反向传播。
输入样本、学习率,初始化权重w、偏置b,反复执行:1)正向传播信息:选定样本,算出估计。2)反向传播误差:依照估计与实际值,根据损失函数计算梯度,调整权重与偏置。
应用举例
语义消歧
第三章 形式语言与自动机
形式语言
语言描述的三种途径
穷举法
适合于句子数目有限的语言
语法描述
生成语言中合格的句子、自动机
自动机
对输入的句子进行检验,区别哪些是语言中的句子,哪些不是。
直观意义
精确描述语言及其结构的手段,以重写规则 α → β \alpha \to \beta α→β的形式表示。其中 α \alpha α、 β \beta β均为字符串。一个初步的字符串通过不断地运用重写规则就可以得到新的字符串。
形式语法的定义
形式语法是一个四元组 G = ( N , Σ , P , S ) G=(N,\Sigma,P,S) G=(N,Σ,P,S), N N N是非终结符的有限集合, Σ \Sigma Σ是终结符的有限集合,$V=N\cup\Sigma 称 为 总 词 汇 表 , 称为总词汇表, 称为总词汇表,P 是 一 组 重 写 规 则 的 有 限 集 合 , 是一组重写规则的有限集合, 是一组重写规则的有限集合,S\in N$,称为句子符或初始符。
如: G = ( { A , S } , { 0 , 1 } , P , S ) G=(\{A,S\},\{0,1\},P,S) G=({A,S},{0,1},P,S), P : S → 0 A 1 , 0 A → 00 A 1 , A → 1 P:S\to 0A1,0A\to00A1,A\to1 P:S→0A1,0A→00A1,A→1
设
G
=
(
N
,
Σ
,
P
,
S
)
G=(N,\Sigma,P,S)
G=(N,Σ,P,S)是一个文法,在$(N\cup\Sigma)^* KaTeX parse error: Undefined control sequence: \* at position 2: (\̲*̲代表闭包)上定义关系:若\alpha\beta\gamma
是
是
是(N\cup\Sigma)^*
中
的
符
号
串
,
且
中的符号串,且
中的符号串,且\beta\to\delta$是P的产生式,那么:
α
β
γ
⇒
G
α
β
γ
\alpha\beta\gamma\Rightarrow_G\alpha\beta\gamma
αβγ⇒Gαβγ
推导的定义
用 ⇒ G + \Rightarrow^+_G ⇒G+(按非平凡方式派生)表示 ⇒ G \Rightarrow_G ⇒G的传递闭包。
用 ⇒ G ∗ \Rightarrow^*_G ⇒G∗(派生)表示 ⇒ G \Rightarrow_G ⇒G的自反和传递闭包。
如果清楚某个推导是文法G所产生的,则上面符号G可省略。
最左推导
每步推导中只改写最左边的非终止符。
最右推导(规范推导)
每步推导中只改写最右边的非终止符。
句子和句型
一些特殊类型的符号串是文法 G = ( N , Σ , P , S ) G=(N,\Sigma,P,S) G=(N,Σ,P,S)的句子形式:1)S是一个句子形式;2)如果 α β γ \alpha\beta\gamma αβγ是一个句子形式,且 β → σ \beta\to\sigma β→σ是 P P P的产生式,则 α β γ \alpha\beta\gamma αβγ是一个句子形式。
文法 G G G的不含非终结符的句子形式被称为G生成的句子。由文法 G G G生成的语言,记作 L ( G ) L(G) L(G),指 G G G生成的所有句子的集合。即: L ( G ) = { x ∣ x ∈ Σ , S ⇒ G + x } L(G)=\{x|x\in\Sigma,S\Rightarrow^+_Gx\} L(G)={x∣x∈Σ,S⇒G+x}
正则文法
如果文法 G = ( N , Σ , P , S ) G=(N,\Sigma,P,S) G=(N,Σ,P,S)的 P P P中的规则满足: A → B x A\to Bx A→Bx或 A → x A\to x A→x,其中 A A A、 B ∈ N , x ∈ Σ B\in N,x\in\Sigma B∈N,x∈Σ,则称该文法为正则文法或称3型文法。
如果 A → x B A\to xB A→xB,则该文法称为右线性正则文法。
上下文无关文法
P P P中的规则满足: A → α A\to\alpha A→α,其中 A ∈ N , α ∈ ( N ∪ Σ ) ∗ A\in N,\alpha\in (N\cup\Sigma)^* A∈N,α∈(N∪Σ)∗,则称该文法为上下文无关文法。
上下文有关文法
P P P中的规则满足: α A β → α γ β \alpha A\beta\to \alpha\gamma\beta αAβ→αγβ,其中 A ∈ N , α , β , γ ∈ ( N ∪ Σ ) ∗ A\in N,\alpha,\beta,\gamma\in(N\cup\Sigma)^* A∈N,α,β,γ∈(N∪Σ)∗,且 γ \gamma γ至少包含一个字符,则该文法为上下文有关文法。
无约束文法(无限制重写系统)
如果 P P P中的规则满足如下形式: α → β \alpha \to\beta α→β, α , β \alpha,\beta α,β是字符串,则称 G G G是无约束文法。
有限自动机与正则文法
确定有限自动机
M = ( Σ , Q , δ , q 0 , F ) M=(\Sigma,Q,\delta,q_0,F) M=(Σ,Q,δ,q0,F)
字母表 Σ \Sigma Σ,状态集 Q Q Q,转移函数 δ ∈ Q × Σ → Q \delta \in Q\times\Sigma\to Q δ∈Q×Σ→Q,初始状态 q 0 q_0 q0,终止状态 F F F。
DFA定义的语言
如果一个句子
x
x
x使得有限自动机
M
M
M有:
δ
(
q
0
,
x
)
=
p
,
p
∈
F
\delta(q_0,x)=p,p\in F
δ(q0,x)=p,p∈F,那么称句子
x
x
x被
M
M
M接受。由
M
M
M定义的语言
T
(
M
)
T(M)
T(M)就是被
M
M
M接受的句子的全集,即:
T
(
M
)
=
{
x
∣
δ
(
q
0
,
x
)
∈
F
}
T(M)=\{x|\delta(q_0,x)\in F\}
T(M)={x∣δ(q0,x)∈F}
不确定有限自动机
M = ( Σ , Q , δ , q 0 , F ) M=(\Sigma,Q,\delta,q_0,F) M=(Σ,Q,δ,q0,F)
字母表 Σ \Sigma Σ,状态集 Q Q Q,转移函数 δ ∈ Q × Σ → 2 Q \delta \in Q\times\Sigma\to 2^Q δ∈Q×Σ→2Q,初始状态 q 0 q_0 q0,终止状态 F F F。
DFA与NFA区别与联系
区别
NFA中 δ \delta δ对应一个状态集合,而DFA中 δ \delta δ是一个状态。
关系
设L是一个被NFA接受的句子的集合,则存在一个DFA,他能接受L。
正则文法与有限自动机的关系
由正则文法构造DFA的步骤
令 Σ = V T , Q = v N ∪ { T } , q 0 = S \Sigma=V_T,Q=v_N\cup\{T\},q_0=S Σ=VT,Q=vN∪{T},q0=S,其中T是一个新增加的非终结符。
- 如果在 P P P中有产生式 S → ϵ S\to\epsilon S→ϵ,则 F = { S , T } F=\{S,T\} F={S,T},否则 F = { T } F=\{T\} F={T}。
- 如果在 P P P中有产生式 B → a , B ∈ V N , a ∈ V T B\to a,B\in V_N,a\in V_T B→a,B∈VN,a∈VT,则 T ∈ δ ( B , a ) T\in\delta(B,a) T∈δ(B,a)。
- 如果在 P P P中有产生式 B → a C , B , C ∈ V N , a ∈ V T B\to aC,B,C\in V_N,a\in V_T B→aC,B,C∈VN,a∈VT,则 C ∈ δ ( B , a ) C\in\delta(B,a) C∈δ(B,a)。
- 对于每一个 a ∈ V T a\in V_T a∈VT,有 δ ( T , a ) = ∅ \delta(T,a)=\empty δ(T,a)=∅。
定理:如果 G = ( V N , V T , P , S ) G=(V_N,V_T,P,S) G=(VN,VT,P,S)是一个正则文法,则存在一个DFA M M M,使得: T ( M ) = L ( G ) T(M)=L(G) T(M)=L(G)。
由DFA构造正则文法的一般步骤
令 V N = Q , V T = Σ , S = q 0 V_N=Q,V_T=\Sigma,S=q_0 VN=Q,VT=Σ,S=q0。
- 如果 C ∈ δ ( B , a ) , B , C ∈ Q , a ∈ Σ C\in \delta(B,a),B,C\in Q,a\in \Sigma C∈δ(B,a),B,C∈Q,a∈Σ,则在 P P P中有产生式 B → a C B\to aC B→aC
- 如果 C ∈ δ ( B , a ) , C ∈ F C\in\delta(B,a),C\in F C∈δ(B,a),C∈F,则在 P P P中有产生式 B → a B\to a B→a
定理:如果 M M M是一个DFA,则存在一个正则文法 G = ( V N , V T , P , S ) G=(V_N,V_T,P,S) G=(VN,VT,P,S),使得: L ( G ) = T ( M ) L(G)=T(M) L(G)=T(M)。
下推自动机与CFG
有限自动机在NLP中的应用
拼写检查
编辑距离
第四课 语料库
语料库概念
定义 具有既定格式与标记的大量的文本。
例如:布朗语料库
种类
共时语料库与历时语料库
共时:研究的是一个共时平面上的元素与元素的关系。
通用语料库与专用语料库
生语料与标注语料库
语料库语言学
基于语料库进行语言学的研究。
语料库发展史
典型语料库
语料库加工方法
文本处理
如垃圾格式问题。语料库内容来源复杂,存在杂质。杂质包括:文档页眉和分隔符、排版代码、表和图。如果数据来源于OCR,存在识别错误等问题,因此需要过滤器过滤这些杂质。
格式标注
句通用标记语言
- SGML是超文本格式的最高层次标准,是可以定义标记语言的元语言。
- HTML和XML同样派生于它:XML可以被认为是它的一个子集,XML的产生就是为了简化它,以便用于更加通用的目的。而HTML是它的一个应用。
数据标注
语法标注
搭配抽取
频率方法
- 如果两个词在一起出现很多次,它们很有可能是搭配
- 仅仅选择最频繁出现的二元组,结果并不理想
均值和方差方法
- 基于频率的搜索方法可以很好的解决固定搭配的识别问题,但 是很多搭配是两词搭配,并且彼此之间的关系非常灵活