自然语言处理笔记7-哈工大 关毅

目录

前言

硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论。
自然语言处理是一个非常难的问题,同时是人工智能皇冠上的明珠。
接下来会记录一系列自然语言处理的笔记,来自于哈工大老师关毅。

句法分析技术1

基于规则+统计结合的句法分析
判定输入的词序列是否合法,短语结构树,有向无环图。
句子:{主『定语,中心』}{谓语『状,谓{动宾【动,宾语(定语,中心词)】,补语}』}
在这里插入图片描述
状语修饰,核心动作。
在这里插入图片描述
提高语法分析结果,计算机的语法分析里面不明确。
词性层级:两种句法分析的区别因子进入短语结合规则。
句法分析和短语结合分析进入区别。
语法歧义示例。
汉语句法分析,句法分析细语,形式语法体系。
匹配模式方法,“正则文法”。
短语结构文法,信息处理系统。机器翻译运用,留下此路不通的牌子。
科研有风险,不是一帆风顺,需要有挑战精神的人去做
扩充转移网络,状态转移机,树邻接语法

句法分析技术2

基于合一运算的语法,复杂描述集的语法,合一运算实现该方法,依存语法,上下文颗粒度太大,短语限定在词汇上,K+语法,依存文法,形式语法体系模式,正则匹配。
短语结构语法分析很多方法。
扩充转移网络
回顾:Chomsky文法体系
G = ( N , ∑ , P , S ) G=(N,\sum,P,S) G=N,P,S是一个文法,
α − > β ∈ P \alpha->\beta\in P α>βP
0型文法:对 α − > β 不 作 任 何 限 制 \alpha->\beta 不作任何限制 α>β
I型文法: ∣ α ∣ ≤ ∣ β ∣ |\alpha|\leq|\beta| αβ
II型文法: 上 下 文 无 关 文 法 , α ∈ N 上下文无关文法,\alpha \in N αN
III型文法:正则文法。
一个字串的推导是一系列文化规则的应用。
起始符推导到最好。强范式:基于词的语法。
格里巴克:形式语言自动化机。
一种语言 L g L_g Lg是由某上下文无关文法推导出来的所有终结符号串的集合,其中的每个终结符串,称为合乎文法G,否则,称之为不合乎文法。上下文文法,扩充概率无关文法。
一个随机上下文无关语法,PCFG的三个假设。
1)位置无关2)上下文无关3)祖先无关。
推出非总结串,隐码模型,推出问题。
PCFG的三个基本问题。
一个语句 W = W i W i − 1 W i − 2 W n W=W_iW_{i-1}W_{i-2}W_n W=WiWi1Wi2Wn的P(W|G)也就是产生语句W的概率?
在语句W的句法结构有歧义的情况下,如何快速选择最佳的语法分析(parse)?
如何从语料库中训练G的概率参数使得P(W|G)最大(类比之前的问题,评价,解码,编码问题)
节点间的递推关系,叶节点到根节点的句法树。

向内算法
在这里插入图片描述

句法分析技术3

随机上下文无关文法
任何一个语句都可以视为一种语言模型。
一个句法树中的结点词句法树开始推导,自顶向下,自下向上。
在这里插入图片描述某一部推导,对应于几个规则,开始推导,做出结果。
登上算法,尝试去做,EM算法,优化前进,无指导学习算法,PCFG的优点。
可以对句法分析的歧义,结果进行概率排序。
提高文法的容错能力。
词对结构分析,上下文对结构分析,随机上下文无关文法。
向前算法,节点值增加提前。
α i j ( A ) = P ( W i , W j ∣ A ) , i &lt; j \alpha_{ij}(A)=P(W_i,W_j|A),i&lt;j αij(A)=P(Wi,WjA),i<j
= ∑ B , C , ∈ R P ( W i , W j , B , W r + 1 . . W j , C ∣ A ) =\sum_{B,C,\in R}P(W_i,W_j,B,W_{r+1}..W_j,C|A) =B,C,RP(Wi,Wj,B,Wr+1..Wj,CA)
α i , j = P ( A − &gt; W i ) i = j \alpha_{i,j}=P(A-&gt;W_i)i=j αi,j=P(A>Wi)i=j

句法分析技术4

浅层句法分析,形式合规分析,结构分析就行。
部分分析,组块分析。
例句:
这一切已经引起世界各国的普遍关注。
S-k,r,c,p.
浅层专项研究。
基于HMM的浅层分析技术,ACL会议。他识别的目标是非递归的NLP,浅层句法分析,隐码是五元组,浅层分析状态空间如何定义。输出一对词性标记,一个组块开始。
照着看,任何阶段都可以用任何一个模型,不同的是标记的内容。
级联式有限状态分析句法。
在这里插入图片描述在这里插入图片描述# 句法分析技术5
基于规则的方法,需要大量人力,不好迁移。
总结:
概率上下文无关文法,句法分析是目前语言处理技术瓶颈之一。发现问题比解决问题更重要。
句法分析是必由之路,ACL每年关注,语法分析。
强化学习技术:免疫机制分析合适吗?
句法是形式,语义是内容。
完整合法性,没有公认的内容。
句法的强制性和语义的决定性,句法系统和语义系统是两个不同的系统,它们各自独立而又相互依存,彼此的对应关系十分复杂,统计规则之后讲应用。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值