语料库与语言知识库
第4章 语料库与
语言知识库
北京市海淀区中关村东路95号 电话:+86-8254 4688
邮编:100190 邮编: cqzong@
4.1 基本概念
宗成庆: 《自然语言理解》讲义,第4 章 2/90
4.1 基本概念
输入 输出
处理模块
大规模语言数据:
• 模型参数训练
• 评测标准
NLP中知识库包括:
• 词汇语义库
语言数据库或知识库 • 词法、句法规则库
• 常识库等等
宗成庆: 《自然语言理解》讲义,第4 章 3/90
4.1 基本概念
语料库(corpus)
语料库(corpus) 就是存放语言材料的仓库(语言
数据库) 。
基于语料库进行语言学研究-语料库语言学
(corpus linguistics)
宗成庆: 《自然语言理解》讲义,第4 章 4/90
4.1 基本概念
语料库语言学
根据篇章材料对语言的研究称为语料库语言学。
-[Aijmer, 1991]
基于现实生活中语言运用的实例进行的语言研究
称为语料库语言学。 -[McEnery, 1996]
以语料为语言描写的起点或以语料为验证有关语
言的假说的方法称为语料库语言学。
-[Crystal, 1991]
宗成庆: 《自然语言理解》讲义,第4 章 5/90
4.1 基本概念
两种解释:
不是新术语:利用语料库对语言的某个方面进
行研究,或者发现某些规律性知识。
是新术语:对现行语言学理论进行批评,提出
新的理论。
宗成庆: 《自然语言理解》讲义,第4 章 6/90
4.1 基本概念
“语料库语言学已经成为语言研究的主流。
基于语料库的研究不再是计算机专家的独有领
域,它正在对语言研究的许多领域产生愈来愈
大的影响。”
-J. Thomas 等人为祝贺语料库语言学的主要奠基
人和倡导者G. Leech 六十岁生日而出版的语料库语言
学研究论文集的开场白[丁信善,1998] 。
宗成庆: 《自然语言理解》讲义,第4 章 7/90
4.1 基本概念
语料库语言学研究的内容:
语料库的建设与编纂
语料库的加工和管理技术
语料库的使用
宗成庆: 《自然语言理解》讲义,第4 章