NLP Month 1

NLP

第一章 绪论

第二章 数学基础

概率论基础

最大似然估计

来求一个样本集的相关概率密度函数的参数,先假定一个概率分布,再求出假定参数最可能的值。

:设总体 X   N ( μ X~N(μ X N(μ σ 2 ) σ^2) σ2) μ μ μ σ σ σ为未知参数, X 1 , X 2 . . . , X n X_1,X_2...,X_n X1,X2...,Xn是来自总体 X X X的样本, X 1 , X 2 . . . , X n X_1,X_2...,X_n X1,X2...,Xn是对应的样本值,求 μ μ μ σ 2 σ^2 σ2的最大似然估计值。

条件概率、全概率公式
贝叶斯决策理论

思想:已知类条件概率密度参数表达式和先验概率,利用贝叶斯公式转换成后验概率进行决策分类。
P ( ω i ∣ x ) = p ( x ∣ ω i ) p ( ω i ) p ( x ) P(\omega_i|x) = \frac{p(x|\omega_i)p(\omega_i)}{p(x)} P(ωix)=p(x)p(xωi)p(ωi)
设w1表示学渣组(类别1),w2表示学霸组(类别2),x=0表示卷面成绩不超过90事件,x=1表示卷面成绩90+事件,U表示试卷总份数。

再设P(wi) 表示两组(类)的份数占比,那么P(w1)=0.5, P(w2)=0.5,即各占一半,此概率被称作先验概率。

再假设通过以往所有的考试信息,得出w1组得分90+的概率为0.2,w2组得分90+的概率为0.8,即P(x=1|w1)=0.2, P(x=1|w2)=0.8,此概率常被称作类的条件概率。它反映两者最本质的区别——这里代表考90+的概率,是分类时最重要的依据。

用P(x=1) 表示w1、w2两组得分90+的总概率,是一个全概率。

最终求的是90+的卷子来自w1、w2两组(类别)的概率,即P(w1|x=1)、P(w2|x=1),它也是一个条件概率,常被称作后验概率。

信息论

H ( X ) = − ∑ x ∈ X p ( x ) log ⁡ p ( x ) H(X) = -\sum_{x\in X}p(x)\log p(x) H(X)=xXp(x)logp(x)

联合熵

H ( X , Y ) = − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log ⁡ p ( x , y ) H(X,Y) = - \sum_{x \in X}\sum_{y \in Y}p(x,y)\log p(x,y) H(X,Y)=xXyYp(x,y)logp(x,y)

条件熵

H ( X ∣ Y ) − ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log ⁡ p ( x ∣ y ) H(X|Y) - \sum_{x \in X}\sum_{y \in Y}p(x,y)\log p(x|y) H(XY)xXyYp(x,y)logp(xy)

连锁规则

H ( X , Y ) = H ( X ) + H ( Y ∣ X ) H(X,Y)= H(X) + H(Y|X) H(X,Y)=H(X)+H(YX)

熵率

H r a t e = 1 n H ( X 1 … n ) = − 1 n ∑ p ( x 1 … n ) log ⁡ p ( x 1 … n ) H_{rate} = \frac{1}{n}H(X_{1\dots n})=-\frac{1}{n}\sum p(x_{1\dots n})\log p(x_{1\dots n}) Hrate=n1H(X1n)=n1p(x1n)logp(x1n)

相对熵(KL距离)

D ( p ∣ ∣ q ) = ∑ x ∈ X p ( x ) log ⁡ p ( x ) q ( x ) D(p||q) = \sum_{x\in X}p(x)\log\frac{p(x)}{q(x)} D(pq)=xXp(x)logq(x)p(x)

用来衡量两个随机分布的距离。

交叉熵

H ( X , q ) = H ( X ) + D ( p ∣ ∣ q ) H(X,q) = H(X) + D(p||q) H(X,q)=H(X)+D(pq)

其中 X ∼ p ( x ) X\sim p(x) Xp(x)

可定义语言 L = ( X ) L=(X) L=(X)与其模型 q q q的交叉熵:
H ( L , q ) = − lim ⁡ n → ∞ 1 n ∑ p ( x 1 n ) log ⁡ q ( x 1 n ) H(L,q) = - \lim_{n\to\infin}\frac{1}{n}\sum p(x_1^n)\log q(x_1^n) H(L,q)=nlimn1p(x1n)logq(x1n)
如果语言 L L L是稳态遍历性随机过程, x 1 n x_1^n x1n L L L的样本,则有:
H ( L , q ) = − lim ⁡ n → ∞ 1 n log ⁡ q ( x 1 n ) H(L,q) = - \lim_{n\to\infin}\frac{1}{n}\log q(x_1^n) H(L,q)=nlimn1logq(x1n)

困惑度

P P q = 2 H ( L , q ) PP_q=2^{H(L,q)} PPq=2H(L,q)

互信息

I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) = H ( Y ) − H ( Y ∣ X ) = ∑ x , y p ( x , y ) log ⁡ p ( x , y ) p ( x ) p ( y ) I(X;Y) = H(X) - H(X|Y) = H(Y)-H(Y|X)=\sum_{x,y}p(x,y)\log\frac{p(x,y)}{p(x)p(y)} I(X;Y)=H(X)H(XY)=H(Y)H(YX)=x,yp(x,y)logp(x)p(y)p(x,y)

可以衡量两个字是一个词的概率。

人工神经网络基础

BP算法

误差反向传播。

输入样本、学习率,初始化权重w、偏置b,反复执行:1)正向传播信息:选定样本,算出估计。2)反向传播误差:依照估计与实际值,根据损失函数计算梯度,调整权重与偏置。

应用举例

语义消歧

第三章 形式语言与自动机

形式语言

语言描述的三种途径
穷举法

适合于句子数目有限的语言

语法描述

生成语言中合格的句子、自动机

自动机

对输入的句子进行检验,区别哪些是语言中的句子,哪些不是。

直观意义

精确描述语言及其结构的手段,以重写规则 α → β \alpha \to \beta αβ的形式表示。其中 α \alpha α β \beta β均为字符串。一个初步的字符串通过不断地运用重写规则就可以得到新的字符串。

形式语法的定义

形式语法是一个四元组 G = ( N , Σ , P , S ) G=(N,\Sigma,P,S) G=(N,Σ,P,S) N N N是非终结符的有限集合, Σ \Sigma Σ是终结符的有限集合,$V=N\cup\Sigma 称 为 总 词 汇 表 , 称为总词汇表, P 是 一 组 重 写 规 则 的 有 限 集 合 , 是一组重写规则的有限集合, S\in N$,称为句子符或初始符。

如: G = ( { A , S } , { 0 , 1 } , P , S ) G=(\{A,S\},\{0,1\},P,S) G=({A,S},{0,1},P,S) P : S → 0 A 1 , 0 A → 00 A 1 , A → 1 P:S\to 0A1,0A\to00A1,A\to1 P:S0A1,0A00A1,A1

G = ( N , Σ , P , S ) G=(N,\Sigma,P,S) G=(N,Σ,P,S)是一个文法,在$(N\cup\Sigma)^* KaTeX parse error: Undefined control sequence: \* at position 2: (\̲*̲代表闭包)上定义关系:若\alpha\beta\gamma 是 是 (N\cup\Sigma)^* 中 的 符 号 串 , 且 中的符号串,且 \beta\to\delta$是P的产生式,那么:
α β γ ⇒ G α β γ \alpha\beta\gamma\Rightarrow_G\alpha\beta\gamma αβγGαβγ

推导的定义

⇒ G + \Rightarrow^+_G G+(按非平凡方式派生)表示 ⇒ G \Rightarrow_G G的传递闭包。

⇒ G ∗ \Rightarrow^*_G G(派生)表示 ⇒ G \Rightarrow_G G的自反和传递闭包。

如果清楚某个推导是文法G所产生的,则上面符号G可省略。

最左推导

每步推导中只改写最左边的非终止符。

最右推导(规范推导)

每步推导中只改写最右边的非终止符。

句子和句型

一些特殊类型的符号串是文法 G = ( N , Σ , P , S ) G=(N,\Sigma,P,S) G=(N,Σ,P,S)的句子形式:1)S是一个句子形式;2)如果 α β γ \alpha\beta\gamma αβγ是一个句子形式,且 β → σ \beta\to\sigma βσ P P P的产生式,则 α β γ \alpha\beta\gamma αβγ是一个句子形式。

文法 G G G的不含非终结符的句子形式被称为G生成的句子。由文法 G G G生成的语言,记作 L ( G ) L(G) L(G),指 G G G生成的所有句子的集合。即: L ( G ) = { x ∣ x ∈ Σ , S ⇒ G + x } L(G)=\{x|x\in\Sigma,S\Rightarrow^+_Gx\} L(G)={xxΣ,SG+x}

正则文法

如果文法 G = ( N , Σ , P , S ) G=(N,\Sigma,P,S) G=(N,Σ,P,S) P P P中的规则满足: A → B x A\to Bx ABx A → x A\to x Ax,其中 A A A B ∈ N , x ∈ Σ B\in N,x\in\Sigma BN,xΣ,则称该文法为正则文法或称3型文法。

如果 A → x B A\to xB AxB,则该文法称为右线性正则文法

上下文无关文法

P P P中的规则满足: A → α A\to\alpha Aα,其中 A ∈ N , α ∈ ( N ∪ Σ ) ∗ A\in N,\alpha\in (N\cup\Sigma)^* AN,α(NΣ),则称该文法为上下文无关文法

上下文有关文法

P P P中的规则满足: α A β → α γ β \alpha A\beta\to \alpha\gamma\beta αAβαγβ,其中 A ∈ N , α , β , γ ∈ ( N ∪ Σ ) ∗ A\in N,\alpha,\beta,\gamma\in(N\cup\Sigma)^* AN,α,β,γ(NΣ),且 γ \gamma γ至少包含一个字符,则该文法为上下文有关文法

无约束文法(无限制重写系统)

如果 P P P中的规则满足如下形式: α → β \alpha \to\beta αβ α , β \alpha,\beta α,β是字符串,则称 G G G无约束文法

有限自动机与正则文法

确定有限自动机

M = ( Σ , Q , δ , q 0 , F ) M=(\Sigma,Q,\delta,q_0,F) M=(Σ,Q,δ,q0,F)

字母表 Σ \Sigma Σ,状态集 Q Q Q,转移函数 δ ∈ Q × Σ → Q \delta \in Q\times\Sigma\to Q δQ×ΣQ,初始状态 q 0 q_0 q0,终止状态 F F F

DFA定义的语言

如果一个句子 x x x使得有限自动机 M M M有: δ ( q 0 , x ) = p , p ∈ F \delta(q_0,x)=p,p\in F δ(q0,x)=p,pF,那么称句子 x x x M M M接受。由 M M M定义的语言 T ( M ) T(M) T(M)就是 M M M接受的句子的全集,即:
T ( M ) = { x ∣ δ ( q 0 , x ) ∈ F } T(M)=\{x|\delta(q_0,x)\in F\} T(M)={xδ(q0,x)F}

不确定有限自动机

M = ( Σ , Q , δ , q 0 , F ) M=(\Sigma,Q,\delta,q_0,F) M=(Σ,Q,δ,q0,F)

字母表 Σ \Sigma Σ,状态集 Q Q Q,转移函数 δ ∈ Q × Σ → 2 Q \delta \in Q\times\Sigma\to 2^Q δQ×Σ2Q,初始状态 q 0 q_0 q0,终止状态 F F F

DFA与NFA区别与联系
区别

NFA中 δ \delta δ对应一个状态集合,而DFA中 δ \delta δ是一个状态。

关系

设L是一个被NFA接受的句子的集合,则存在一个DFA,他能接受L。

正则文法与有限自动机的关系
由正则文法构造DFA的步骤

Σ = V T , Q = v N ∪ { T } , q 0 = S \Sigma=V_T,Q=v_N\cup\{T\},q_0=S Σ=VT,Q=vN{T},q0=S,其中T是一个新增加的非终结符。

  • 如果在 P P P中有产生式 S → ϵ S\to\epsilon Sϵ,则 F = { S , T } F=\{S,T\} F={S,T},否则 F = { T } F=\{T\} F={T}
  • 如果在 P P P中有产生式 B → a , B ∈ V N , a ∈ V T B\to a,B\in V_N,a\in V_T Ba,BVN,aVT,则 T ∈ δ ( B , a ) T\in\delta(B,a) Tδ(B,a)
  • 如果在 P P P中有产生式 B → a C , B , C ∈ V N , a ∈ V T B\to aC,B,C\in V_N,a\in V_T BaC,B,CVN,aVT,则 C ∈ δ ( B , a ) C\in\delta(B,a) Cδ(B,a)
  • 对于每一个 a ∈ V T a\in V_T aVT,有 δ ( T , a ) = ∅ \delta(T,a)=\empty δ(T,a)=

定理:如果 G = ( V N , V T , P , S ) G=(V_N,V_T,P,S) G=(VN,VT,P,S)是一个正则文法,则存在一个DFA M M M,使得: T ( M ) = L ( G ) T(M)=L(G) T(M)=L(G)

由DFA构造正则文法的一般步骤

V N = Q , V T = Σ , S = q 0 V_N=Q,V_T=\Sigma,S=q_0 VN=Q,VT=Σ,S=q0

  • 如果 C ∈ δ ( B , a ) , B , C ∈ Q , a ∈ Σ C\in \delta(B,a),B,C\in Q,a\in \Sigma Cδ(B,a),B,CQ,aΣ,则在 P P P中有产生式 B → a C B\to aC BaC
  • 如果 C ∈ δ ( B , a ) , C ∈ F C\in\delta(B,a),C\in F Cδ(B,a),CF,则在 P P P中有产生式 B → a B\to a Ba

定理:如果 M M M是一个DFA,则存在一个正则文法 G = ( V N , V T , P , S ) G=(V_N,V_T,P,S) G=(VN,VT,P,S),使得: L ( G ) = T ( M ) L(G)=T(M) L(G)=T(M)

下推自动机与CFG

有限自动机在NLP中的应用

拼写检查

编辑距离

第四课 语料库

语料库概念

定义 具有既定格式与标记的大量的文本。

例如:布朗语料库

种类

共时语料库与历时语料库

共时:研究的是一个共时平面上的元素与元素的关系。

通用语料库与专用语料库

生语料与标注语料库

语料库语言学

基于语料库进行语言学的研究。

语料库发展史

典型语料库

语料库加工方法

文本处理

如垃圾格式问题。语料库内容来源复杂,存在杂质。杂质包括:文档页眉和分隔符、排版代码、表和图。如果数据来源于OCR,存在识别错误等问题,因此需要过滤器过滤这些杂质。

格式标注

句通用标记语言

  • SGML是超文本格式的最高层次标准,是可以定义标记语言的元语言。
  • HTML和XML同样派生于它:XML可以被认为是它的一个子集,XML的产生就是为了简化它,以便用于更加通用的目的。而HTML是它的一个应用。
数据标注

语法标注

搭配抽取
频率方法
  • 如果两个词在一起出现很多次,它们很有可能是搭配
  • 仅仅选择最频繁出现的二元组,结果并不理想
均值和方差方法
  • 基于频率的搜索方法可以很好的解决固定搭配的识别问题,但 是很多搭配是两词搭配,并且彼此之间的关系非常灵活
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值