进行统计自然语言处理系统梳理,学习资料《统计自然语言处理.宗成庆》。
一、概述
对于不同的语言单位,语言分析的任务各不相同:在词的层次上,语义分析的基本任务是进行词义消歧;在句子层面上,语义角色标注是所关心的问题;在文章层次上,指代消解、篇章语义分析是重点。
二、词义消歧
词义消歧的基本方法:基于规则的分析方法;基于大规模语料的统计机器学习方法。
统计消歧方法的基本观点,一个词的不同语义一般发生在不同的上下文中。
着重了解:1,基于贝叶斯分类器的消歧和基于最大熵模型的词消歧;2,基于词典的消歧。
三、语义角色标注
3.1概述
语义角色标注是一种浅层语义分析技术,它以句子为单位,不对句子所包含的语义信息进行深入分析,而只是分析句子中的谓词-论元结构。具体,语义角色分析的任务是以句子的谓词为中心,研究句子中各成分与谓语之间的关系,并用语义角色来标注他们的语义角色标注所面临的问题主要体现在鲁棒性:1,标注的效果过于依赖于句法分析的效果;2,角色标注方法的领域适应性太差。
语义角色标注的基本方法:基于短语结构树的语义角色标注;基于浅层句法分析的语义角色标注;基于依存句法分析的角色标注;语义角色标注的融合方法。
语义角色标注的基本流程:1,句法分析结果;2,候选论元剪除;3,论元辨识;4,论元标注;5,后处理;6,语义角色标注结果。