统计自然语言处理基础-第三章 语言学基础(笔记)

3 语言学基础

语言学概念+语法(句子结构)现象(附着歧义、短语结构)+词法(词语形成)+语义

3.1 词性和词法

句法=语法类=词性(POS):按照词的语法结构和典型的语义类型分类,类别的名称

开放类别=词汇类别:名词(人、动物、概念、事物)、动词(表达动作)、形容词(描述名词的属性)

封闭类别=功能类别:介词、限定词(包括类似of,on,the,a的词)

判断词是否属于同一类别的最基本方法是替换测试

POS标记:命名词语类别的缩写集

词语类别与构词过程是系统相关的,懂得了构词过程,就能够推导出新词的许多语法和语义属性

构词过程主要类型:

  1. 变形(对词根形式进行系统的修改,通过加前缀或者后缀来指明语法结构的不同,变形并不能显著改变词语的类别和语义,但是修改了一些特性,时态、数目或者复数形式)

  2. 派生(导致了语法类别的根本改变,而且涉及到了含义的变化)

  3. 复合(将两个或者多个词合成一个词)

3.1.1 名词和代词

名词指世界上的实体,人 动物 事物 只有一种变形,复数形式;另外还有两种跨语言的常用的名词变形,性别和格

​ 英语中不存在性别变形形式,但是第三人称单数代词有不同的性别形式 he she it

​ 当名词在句子中具有不同的功能(主语,宾语)时,该名词表现为不同的形式:格,英语唯一指明了所有格

代词是一个独立的小类,类似于变量,指代上下文中比较明显的人或物,代词分人称(1 2 3),代词是英语中唯一一种在在作为句子主语和宾语的时候形式不一样的单词(主格和宾格)。

代词也具有特殊的形式,1 所有格代词中的代词指代的对象是一个所有者,这是所有格形式my car,2 英语还有另一种所有格形式,称为第二所有格人称代词,用于of的宾语描述的是所有者时a friend if mine。3 还有反身代词(常用于指代语,指代文中某个和他距离非常近的对象,通常是句子主语)

人称代词用于指导前文中稍微远一点的人或物
在这里插入图片描述

3.1.2 名词附属词:限定词和形容词

其他的几种词性标注一般都会伴随着名词出现。

限定词描述了名词的特指。限定词的一个子类是冠词,冠词the表明我们正谈论一些已经知道或者可以唯一确定的人或者事物,a/an 值得是我们前面没有提到的人或者事物。其他的限定词包括指示代词,this和that。

形容词用来描述名词的属性,修饰名词的用法被称为属性或者修饰词,形容词还有一种表语用法,用做be的补语。

冠词和形容词必须与名词对应,即他们必须有相同的格、数和性别。

形容词的基本形式被称为原级、比较级和最高级
在这里插入图片描述

3.1.3 动词

动词用来描述动作、活动和状态。一个规则的动词有下面的一些变形:

  1. 词根或者原形

  2. 第三人称单数现在时

  3. 动名词或进行时

  4. 过去式或过去分词
    在这里插入图片描述

特殊属性的动词:情态助动词(情态动词),没有不定式,没有进行时,在动词群中出现在最前面。
在这里插入图片描述

3.1.4 其他词性

副词、介词和小品词

​ 副词修饰动词的方式与形容词修饰名词的方式一样,副词指定了地点、时间、方式或者程度,often,一些副词不是从形容词派生出来的,也没有-ly;一些副词也可以修饰形容词或者修饰其他副词;very修饰形容词或者副词,但不修饰动词,称为程度副词,程度副词的分布与其他副词相差很大,称为限定词

​ 介词最初主要是表示空间关系(in on over about)

​ 很多介词都有双重语法功能,还可以拿称之为小品词。小品词是介词的一个子类,在短语动词结构中与动词之间存在很强的关系。
在这里插入图片描述

连词和补语

在这里插入图片描述

3.2 短语结构

定义:特定的词语集合的行为,在不同位置表现出相同的语法行为。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.2.1 短语结构语法

句子的句法结构分析告诉我们如何从词语的意思来确定句子的含义

自由词语顺序语言:允许句子以不同的方式组织词语顺序却不改变句意,而采用格标记来指明施动者和受动者,也就是词语顺序并不用来指明谁是施动者,而主要用来指明论述结构。

句子顺序规则=重写规则

一个简单的重写规则:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

语法(如何识别短语):

  1. 重写规则:类别->类别;左边的符号序列可以重写为右边的符号序列。
  2. :子节点的顺序为句子中词语的顺序,非终结节点和它的直接子节点/局部树对应重写规则的一个应用,分析树对应句子的派生
  3. 带标记的括号:括号集合划出了各成分,并通过加标记表示了非终结符的类别.如:[ S [ N P [ A T T h e ] [ N N S c h i l d r e n ] ] [ V P [ V B D a t e ] [ N P [ A T t h e ] [ N N c a k e ] ] ] ]

递归是大部分形式化自然语言的重写规则共有的一个属性,它使得类似VP或者NP的单个终结符扩展为大的词语结构:重写规则可以被使用任意多次

非局部依存性:在句子的派生过程中,由普通重写规则生成并且语法上联系在一起的两个词语能够被插入其中的词语分开;两个词是语法上相互依存的,即使他们在句子中相隔很远。

依存性显示出局部性的一个例子是主语-动词呼应,一个句子中的主语和动词在数和人称上是对应的。即使他们之间被插入了其他的词或者短语。

另一种重要的非局部依存关系是远距离依存关系,例如wh-抽取:依存关系能够在短语结构中跨过任意数目的节点。

句法分析:给出一个词语序列,重构它的派生或者短语结构树的过程
在这里插入图片描述
在这里插入图片描述

3.2.2 依存关系:论元和附属语

一般来说动词具有论元,名词短语常常作为动词的论元,动词的论元可以被描述为不同的层次。

  1. 通过语义角色来将论元分类:动作的施动者是做事情的人或者物,受动者是接收事件的人或者物,其他类别是工具或者目的

  2. 根据语法关系描述论元的句法可能性:主语 宾语 代词(作为主语时使用主格,作为宾语时使用宾格,在英语中,代名词是唯一在作为宾语的时候改变形式的名词)一些动词后面带着两个名词短语作为宾语,都是宾语形式,其后的第一个名词短语是间接宾语(描述接受者,间接得到事物的人),第二个是直接宾语(描述受动者),这些动词允许接受者出现在介词短语中,具有格标记的语言区分了这些NP,用宾格表示受动者,给予格表示接受者

区分主动语态和被动语态,主动对应表达一个动词论元的默认方式:施动者是主语,受动者是宾语,被动语态中反之。意味着两个论元顺序反了,且主语用介词短语by-来表示,被动语态由助动词be和过去分词组成。

其他语言中,被动语态转换仅仅只涉及到格标记的变化以及一些动词的变形。

子类化

语言学家对动词的依赖词进行分类,找到的第一个区别存在于论元和附属语之间,主语、宾语和直接宾语都是论元,一般来说,论元表达了参与动词活动的中心实体,大多数论元用NP表示,少量使用PP,VP或者从句。

论元被划分为主语以及其他非主语论元,非主语论元称为补语。附属语是与动词联系不是很大的短语,一般来说是可选的,很多的补语都是必须的,附属语相对于补语而言更容易移动。

从句也可以作为附属语或者子类化论元,能够表达与动词之间的一些关系。传统的论元/附属语之间的差别反应了传统语言学中的绝对性基础,但是很多情况下会有一些中间状态,无法区分是论元还是附属语,在统计语言学方法中,考虑动词和依赖词之间的关联程度更有意义。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.2.3 X’理论

也就是一个名词(中心词)可以添加任意多的形容词或者介词作为补语或附属语,并通过附属语修饰成更大的短语

短语结构规则在自然语言中的短语构成中并不具有系统性,一个重要的思想是短语有一个中心词。

讨论名词短语和介词短语的原因:它们是分别包含看名词和介词及其所有依赖词的成分。名词或者介词作为短语的中心词。短语中依赖词分布在中心词周围的方式有很大的系统性。一个中心词以及他的补语形成了一个小成分,这个成分可以被附属语修饰成一个较大的成分,最终这个成分会与一个专有词、主语或者限定词联合起来形成一个最大的短语。下面的分析书给出了一个一般的形式:
在这里插入图片描述

3.2.4 短语结构歧义

使用重写规则来生成句子。在句法分析中经常使用重写规则。

句法分析是指给出一个特殊的词语序列,重构它的派生或者短语结构树的过程。根据句子构建的一棵短语结构树称为一个分析。

大多数情况下,一个特定的词语序列可以给出多个不同的短语结构树。一个基于英语中完全语法的句法分析器能够找到一个句子的上百个分析。这称为短语结构歧义或者句法结构歧义。

附着歧义是经常出现的句法结构歧义,附着歧义发生在可以被两个不同节点生成的短语中,例如可以作为动词短语的子节点或者作为名词短语的子节点,不同的附着有不同的含义。

另一个是Garden Pathing现象,例如一个句子中会出现一些看上去不应该出现的多余词,是一种进入可疑分析以后不得不回溯尝试重新构造正确分析的现象,在口语中不会造成问题但是在书面语中会是一问题。

大部分的句子是因为语法歧义出现不止一个句法分析,还有可能出现一个句子找不到对应的句法分析,原因:在句法中没有包括句子生成所使用的的规则,另一个是这个句子不合乎语法或者句法结构本身不完整,不合语法的句子使用*来标记,使用#标记来指明语义、语用和文化差异,区别于前面引入的语法结构异常的符号。

歧义原因

  • 短语结构歧义或者句法结构歧义:句法分析太多
  • 找不到对应的句法分析:语法中缺少规则;不合乎语法

3.3 语义和使用

语义研究的是词语的含义、结构和说话的方式。可以分成两部分:研究单个单词的语义(词义)和单个词的含义是怎样联合起来组成句子的含义的。
在这里插入图片描述

上位词和下位词;反义词;部分-整体;整体-部分;同义词;同形异义词(含有同音异义词);多义词

整体含义是指各部分的含义加上一些不能从各部分推导出来的额外的语义信息。

如果词语含义与短语含义之间的关系很远,称这个短语为成语,需要考察这个短语的历史起源才能知道其意义,名词-名词复合词也是这样,还有作用范围的问题,需要根据上下文来确定其解释。

词=>句子=>篇章(阐明文本中句子之间隐含的关系,例如说话行为类型以及次序之间的关系),篇章分析中的一个核心问题是指代关系消解,指代关系发生在涉及到同一个人或物的多个名词短语之间。指代消解就是之处上下文句子的一些指代关系。

篇章分析是语用研究的一部分,主要是研究世界知识和语言习惯是怎样与字面含义相互影响的。指代关系是一种语用现象,因为他们受世界知识的约束,语用论研究领域没有收到太多的关注,但是指代关系的消解和为对话中的语言行为建模收到了越来越多的关注。

3.4 其他研究领域

传统上语言学被划分成语音学、音韵学、形态学、句法学、语义学以及语用学。

语音学主要研究语言的发音,诸如谐音、元音和语调等。

音韵学主要研究语言发音系统的结构。

语音学和音韵学在语音识别和语音合成中非常重要,但是因为我们并没有涉及到语音,因此本书中并不具体讨论这方面的内容。在我们首次涉及语音学和音韵学时将会介绍少量基本概念。

除了研究那些处理不同语言层次的领域外,还有一些特殊的语言学研究领域。社会语言学研究社会组织和语言之间的相互影响。语言随时代的改变是历史语言学的主题。语言分类学主要研究语言对语言学工具的不同使用,以及它们是怎样基于所用工具的方式被分成不同类的。语言获取调查了孩子们是怎样学习语言的。心理语言学家专注于实时语言的产生和语言理解的问题,以及语言展现在脑海里的方式。许多领域都很有可能会用到定量方法。数理语言学习惯于实现一些使用非定量数学思想的方法。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值