概述
本系列文章计划总结整理中国科学院大学宗成庆老师《自然语言处理》课程相关知识,参考数目《统计自然语言处理》-第二版,宗成庆。
1.基本概念
语言学:(Linguistics) 研究语言本质、结构、和发展规律的科学。-商务印书馆,《现代汉语词典》,1996年
自然语言: 人类特有的书面和口头形式的语言。
自然语言理解(Natural Language Understanding,NLU): 研究模仿人类语言认知过程的自然语言处理方法和实现技术的一门学科。 《计算机科学技术百科全书》第三版,P1223,宗成庆,黄昌宁
计算语言学(Computation Linguistics,CL): 通过建立形式化的计算模型来分析、理解和生成自然语言的学科,是人工智能和语言学的分支学科。计算语言学更加侧重基础理论和方法的研究《计算机科学技术百科全书》第三版,2018,5,P476,常宝宝
自然语言处理(Natural Language Processing,NLP): 自然语言处理是研究如何利用计算机技术对语言文本(句子、篇章或话语)等进行处理和加工的一门学科。 《计算机科学技术百科全书》第三版,P1223,宗成庆,黄昌宁
人类语言技术(Human Language Technology,HLT): 就字面意思理解,研究人类语言的技术。
上个世纪五十年代,学术界对机器翻译产生了浓厚的兴趣;并得到了实业界的支持。因此国际上出现了研究机器翻译的热潮。随着机器翻译的发展,各种自然语言处理技术应运而生;并逐渐发展壮大,形成了这一语言学与计算机技术相结合的新兴学科。
2.人类语言技术HLT发展简史
1950s: 基于模板的NLP方法
1960-1980s: 基于规则的方法
1990-2013: 统计NLP方法
2013~: 深度学习的方法
3.HLT 研究内容
机器翻译、信息检索、自动文摘、问答系统、信息过滤、信息抽取、文档文类、语音识别、说话人识别。有很多研究方向都密切相关。
4.基本问题和主要困难
基本问题: 形态学问题、句法问题、语义问题、语用学问题、语音学问题。
主要困难:
大量歧义现象:词法歧义、词性歧义、结构歧义、语义歧义、语音歧义(多音字歧义)。
大量未知语言现象:随着社会生活的发展,每时每刻都会产生大量的具有新意义的词汇。
5.基本研究方法
1.理性主义会基于规则的分析方法建立符号处理系统。
2.经验主义会基于大规模真实语料(语言真实数据)建立计算方法。