哥伦比亚大学 NLP 第三章(第一部分)

哥伦比亚大学 NLP 第三章摘要本章主要讲述了一个叫做ParsingParsingParsing的问题,ParsingParsingParsing的中文翻译叫做解析,是自然语言处理中非常重要的一个问题之一。简介什么是解析ParsingParsingParsingParsingParsingParsing的目的就是为了分析句法结构,就是确定一个句子中每一个单词充当什么成分,比如:主语...
摘要由CSDN通过智能技术生成

哥伦比亚大学 NLP 第三章(第一部分)

目录

  • 摘要
  • 简介
  • 上下文无关文语 ( C o n t e x t − F r e e (Context-Free (ContextFree G r a m m a r s ) Grammars) Grammars)
  • 英语句法
  • 歧义 ( A m b i g u i t y ) (Ambiguity) (Ambiguity)

摘要

  • 本章主要讲述了一个叫做 P a r s i n g Parsing Parsing的问题, P a r s i n g Parsing Parsing的中文翻译叫做解析,是自然语言处理中非常重要的一个问题之一。

简介

什么是解析 P a r s i n g Parsing Parsing
  • P a r s i n g Parsing Parsing的目的就是为了分析句法结构,就是确定一个句子中每一个单词充当什么成分,比如:主语、谓语或宾语。句子间词组的结构关系,比如:动宾搭配等等。如下图所示:
    在这里插入图片描述
  • 如上图所示 P a r s e Parse Parse的输入是一个句子,输出是一个解析树,这棵解析树不同的层次传递出来不同的信息,在紧挨着单词这一层传递的是词性的信息( N = n o u n N=noun N=noun V = v e r b V=verb V=verb D T = d e t e r m i n e r DT=determiner DT=determiner)。在往上面的一些层次中,体现出词组的一些信息,如上面所示的( N P = N o n e NP=None NP=None P h a s e , Phase, Phase, V P = V e r b VP=Verb VP=Verb P h a s e , Phase, Phase, S = S e n t e n c e s S=Sentences S=Sentences)。凭借这种解析方式,我们就可以很好的划分清楚句子成分并且便于句子的语意理解。
  • 经过划分的句法结构之所以便于语意理解,是因为在语言中的一些结构决定着不同词之间的关系,这是每种语言固有的。比如:作为一个人,要去理解句意,或许你也需要像在脑海里构造解析树那样分析这是主语、这部分是谓语、这部分是宾语。根据语言约定俗成的规则,我们知道动作的发出者是主语,接收者是宾语,发生的那个行为就是谓语动词。既然我们上面的解析树已经分析清楚了句子成分,那么我们也可以让他学习一些固定的结构形式从而使机器理解句子的语意,如下图所示:
    在这里插入图片描述
    上图左侧为我们展示的就是一个最基础的主谓结构,如果机器可以学习到这样的结构,那么它就可以通过分析解析树找到句子中的主语以及谓语动词。
如何训练一个解析树
  • 在这一节中,关于这个问题只给出了笼统的设计思想,所以就简述一下。大致思想是你现在拥有 5000 5000 5000个已经经过标注的解析树(就是数据),课件中说呢这些数据的来源是手工标注的(可以看出这是一个特别苦逼的工作)。
  • 首先,选择出一部分数据作为训练集(啥是训练集呢?训练集就是你用来训练模型用到的数据,这一部分数据将占据所有数据的绝大部分,在数据较少的时代,一般训练集也会分到七成左右的数据,在数据规模庞大的项目中训练集数据甚至可以占据 98 98% 98以上的数据)。课件中说选出 40000 40000 40000数据作为训练集(因为在这个问题中的数据规模不够大)
  • 再选取一部分数据作为测试集(测试集是用来考量训练的模型有没有过拟合的,过拟合就是模型迁移能力不行,你告诉了模型1+1=2,模型学会了,转过头你问它2+2得啥它就懵逼了,你想想这能行吗?这简直就是人工傻子啊!赶快回炉再造吧,那么好这个2+2的问题就是测试集要做的),这里给了测试集 2400 2400 2400组数据。
  • 可能有人会问剩下的数据哪去了?还有 7600 7600 7600组数据吃了?不好意思课件里还真没说。我斗胆猜测是放到了验证集里面了。验证集是啥我就不说了,想了解更多关于测试集、验证集以及训练集超参数调参的内容,推荐去学习吴恩达老师deeplearning.ai第二门相关课程。
  • 下面是一个关于测试集、验证集、训练集的博客:https://blog.csdn.net/Raymond_MY/article/details/85209251
应用:机器翻译
  • 举一个机器翻译的例子来解释一下解析的作用,有一个更感性的理解。在英语中我们一个基础的结构是主谓宾结构,在日语中基础的结构却是主宾谓,所以我们要把英语翻译成日语时,就要调整谓语动词和宾语的位置,下图所示的例子中解释了日语和英语结构的不同。
    在这里插入图片描述
  • 在机器翻译领域解决这一问题看似复杂,仔细考虑一下我们现在有解析树,之前讲过解析树的层级间反应的是这种句式关系。在句式结构方面,日语和英语唯一的不同就是谓语和宾语的位置不同需要对调。之前提到过的,在英语中在动宾短语的结构中,根节点表明这是一个动宾结构 V P VP VP,左孩子代表动词,右孩子代表一个名词性结构。也就是说,在这种情况下英语和日语句式结构的转换只需要调换左右子树,如下图所示:
    在这里插入图片描述
    上图所示是一个日语解析树(虽然写的是英语,我们假设单词的翻译已经完成),句式结构是日式结构,图中绿色的节点是一些动宾结构的节点,我们现在要做的就是把这些绿色节点的左右子树对调就可以获得一个英式的解析树啦,相应的机器翻译也就完成了。

上下文无关文语

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值