1.自然语言处理概述
1.1 文本大数据的机遇和挑战
- 语言是思维的载体,是人类交流思想、表达情感最自然、最直接、最方便的工具.
- 人类历史上以语言文字形式记载和流传的知识占知识总量的80%以上.
- 中国互联网上有87.8%的网页内容是文本表示的.
1.2 全世界网页数量正以指数速率增长
- 中文网页检索的最高准确率不足40%。
1.3 跨语言通讯和信息获取技术具有重要的用途
- 随着社会全球化时代的到来,机器翻译市场潜力巨大;
- 涉及的领域包括文化、商贸、旅游、体育等
1.4 总结
自然语言处理要解决的问题:
- 如何如何让计算机能够自动或半自动地理解自然语言文本,懂得人的意图和心声?
- 如何让计算机实现海量语言文本的自动处理、挖掘和有效利用,满足不同用户的各种需求,实现个性化信息服务?
2 自然语言处理简介
2.1 计算语言学(Computational Lingusitics)
- 通过建立形式化的计算模型来分析、理解和生成自然语言的学科,是人工智能和语言学的分支学科。
- 计算语言学是典型的交叉学科,其研究常常涉及计算机科学、语言学、数学等多个学科的知识。
2.2 自然语言理解(Natural Language Understanding, NLU)
- 自然语言理解是探索人类自身语言能力和语言思维活动的本质,研究模仿人类语言认知过程的自然语言处理方法和实现技术的一门学科。
2.3 关于理解的标准
- 如何判断计算机系统的智能?
- 计算机系统的表现(act)如何?
2.4 自然语言处理
- 自然语言处理是研究如何利用计算机技术对语言问题(句子、篇章和话语)进行处理和加工的一门学科,研究内容包括对词法、句法、语义和语用的识别、分类、提取、转换和生成等各种处理方法和实现技术。
2.5 自然语言处理关键技术
- 基础技术、核心技术和应用
2.6 中文信息处理
- 汉语:汉族的语言,是我国的主要语言。
- 中文:中国的语言文字,特指汉族的语言文字。
2.7 人类语言技术
- 自然语言处理技术迅速成为发展成为一门相对独立的学科,而且该技术不断与语音技术相互渗透和结合形成新的研究分支。
- “计算语言学”、“自然语言理解”或“自然语言处理”,往往默认为同一个概念;