一.概述
- 现状
现代nlp的主要任务已经跨越对词的研究,发展到了对句子研究,即句法、句义及句子生成的研究,已经能较好的解决句子层面的问题,但是尚未达到完全解决篇章层面的问题,尚不足以达到较为自由的人机交互。
专业技术:完全句法分析、浅层句法分析、信息抽取、词义消歧、潜在语义分析、文本蕴含和指代消解。
- 问题:
- 语法解析:大规模的中文分析、词性标注系统已基本达到商用,但是句法解析方面还存在精度问题。
- 语义解析: 命名实体识别、语义块已经获得了较高的精度。人工智能对知识库的研究历史悠久,已经形成了一整套的知识库的架构和推理体系。实现句子到知识库的主要方法是语义角色标注系统,但在整句理解,精度依赖于句法解析系统。
二、三个平面的语义研究
1.词汇和本体论(关于语义意义)
词汇的语义--------->对事物的编码
人在组织概念的认知机制----->范畴化
本体论----------->对领域内的真实存在做出客观描述,而不依赖于特定语言
2.格语法及框架(语法能否脱离语义而独立存在)
语义和语法相互依存,只能在抽象意义上分开,而在具体语言实例看做一体。
“格”:句子中体词(名词、代词等)和谓词(动词、形容词等)之间的及物关系。一旦被确定,句子的语义结构就被确定。
三部分:基本规则、词汇部分和转换部分
局限性:只研究了名词和动词的关系,没有考虑其他的语义关系
3. 语义角色研究
在格的影响下产生。适用于更复杂、多样的
三、词汇和分词技术
1.分词规范
1)《北大(中科院)词性标注》、《现代汉语语料库加工规范》《北大现代汉语语料库基本加工规范》
北大标准包含40类词,兼顾了词的语法特征和语义特征,但是语义特征并不完备。
2)《宾州树库中文分词规范》
2.分词标准
1)粗粒度:词语作为最小标准。用于自然语言处理各种应用
2)细粒度:语素作为最小标准。用于搜索引擎
常用:索引时使用细粒度保证召回,查询使用粗粒度保证精度
3. 歧义
交集型歧义切分、组合型歧义切分------->词典+语言模型
- 词汇的构成
三个特性:稳固性、常用性和能产性(主要表现在产生