自然语言处理2——语言学基础
词性与词法
词性分类:
- 开放类(词汇类):名词、动词、形容词
- 封闭类(功能类):介词、限定词等
词法(构词过程):
- 变形:对词根进行系统的修改,加前后缀来指明语法结构的不同,如:单复数、时态、数目
- 派生:缺乏系统化,通常导致语法类别及含义的根本变化,如:wide widely
- 复合:两个以上的词构成一个新词
短语结构
定义:特定的词语集合的行为,在不同位置表现出相同的语法行为。
语法(如何识别短语):
- 重写规则:类别->类别;左边的符号序列可以重写为右边的符号序列。
- 树:子节点的顺序为句子中词语的顺序,非终结节点和它的直接子节点/局部树对应重写规则的一个应用,分析树对应句子的派生
- 带标记的括号:括号集合划出了各成分,并通过加标记表示了非终结符的类别.如: [ S [ N P [ A T T h e ] [ N N S c h i l d r e n ] ] [ V P [ V B D a t e ] [ N P [ A T t h e ] [ N N c a k e ] ] ] ] [ S[NP[AT The][NNS children]][VP[VBD ate][NP[AT the][NN cake]]]] [S[NP[ATThe][NNSchildren]][VP[VBDate][NP[ATthe][NNcake]]]]
分析:根据句子构建一颗短语结构树
句法分析:给出一个词语序列,重构它的派生或者短语结构树的过程
问题:
- 远距离依存关系;
- 句法分析和短语结构歧义:一个词语序列可以给出多个不同的短语结构树;
- 附着歧义:不同的附着有不同的含义;
- Garden Pathing:进入可疑分析后不得不回溯重新分析
歧义原因:
- 语法歧义
- 找不到对应的句法分析:语法中缺少规则;不合乎语法
语义和语用
语义:研究词语的含义,结构及说话方式:单个词的语义、单个词的含义怎样联合起来组成句子的含义
- 词汇级语义分析:研究如何理解某个词的含义
- 词义消歧:某个词有多个含义,如何根据上下文确定含义
- 方法:基于词典;基于机器学习
- 词表示:如何表示并学习一个词
- 方法:one-hot模型;词嵌入(word Embedding:根据词常出现的语境构造向量)
- 词义消歧:某个词有多个含义,如何根据上下文确定含义
- 短语级语义分析:词在不同环境下词义会有差别,研究词语搭配的含义
- 整体含义:各部分含义+不能从各部分推导出的额外的语义信息
- 句子级语义分析:根据句子的句法结构和其中词的词义等,推导出能够反应这个句子意义的形式化表示
- 语义角色标注:浅层语义分析方法,任务是找出核心语义角色(人等)和附属语义角色(时间、地点、方式等)
- 句子嵌入表达:研究句子的向量表示
- 方法:词袋模型(Bag of word);卷积神经网络;循环神经网络;BERT等
语用:研究知识和语言习惯是如何与字面含义相互影响的,即指人在一定环境中对语言的运用,在不同环境下如何理解语言
-
篇章分析:阐明文本中句子之间的隐含关系
-
指代消解:把指代的东西明确化
-
对话中的语言行为建模
句法、语义、语用的关系:
句法结构相同,语义不同 | 语义相同,句法结构不同 | 语义相同,语用有别 | |
---|---|---|---|
例子 | ”吃苹果“ ”吃食堂“ | ”吃了苹果“ ”苹果吃了“ | 主席台上摆着鲜花;鲜花摆在主席台上 |
相同 | 句法:动宾结构 | 语义:动作-对象 | 语义 |
不同 | 语义分别是:动作-对象关系;动作地点关系 | 句法分别是:动宾关系;主谓关系 | 1:主席台是旧信息,鲜花是新信息;2:主席台是新信息,鲜花是旧信息 |
往期文章:
自然语言处理1——NLP概述