绪论
问题的提出:
- 研究主体:自然语言,区别于机器语言,是人类日常使用的语言(中文、英文、法语……),同时也是思维的载体,是一种工具。
- 问题的引入:跨语言交流的障碍;信息爆炸;网络信息安全……
- 问题的提出:
* 如何让计算机自动或人机互助的完成语言处理功能?
* 如何让计算机对海量信息进行自动处理、知识挖掘,进行有效利用?
一、基本概念
- 语言:
定义:人类特有的,用以表达情感、交流思想的工具,是一种特殊的社会现象。
基本属性:语音,文字 - 语言学:研究语言的学科,包含语言的本质、结构、发展规律。
- 语音学:研究发音特点
- 计算语言学:计算技术和概念 → \rightarrow → 语言学和语音学问题
- 自然语言处理 or 自然语言理解
* 微观:映射,自然语言 → \rightarrow → 机器内部
* 宏观:机器能够执行人类所期望的某些语言功能
- “理解” → \rightarrow → 计算机智能 → \rightarrow → 表现、反映、人机交互 ← \leftarrow ← 图灵测试
二、自然语言处理研究的内容和面临的困难
(一)研究内容
- 机器翻译
- 自动文摘
- 信息检索
- 文档分类
- 问答系统
- 信息过滤
- 信息抽取
- 文字编辑和自动校对
- 光读字符识别OCR
- 语音识别
- 语音合成
- 说话人识别、认证、验证
- ……
(二)自然语言处理涉及的几个层次
- 形态学:词素(不可分割)
→
\rightarrow
→ 词的构成规律
→
\rightarrow
→分词
独立语(汉语);曲折语(英语);黏着语(日语) - 语法学:语法规律,对句子结构的分析
- 语义学(根本问题):词的含义 → \rightarrow →句的含义 → \rightarrow →篇章的含义
- 语用学:特定坏境,不同上下文
(三)难点
- 歧义(disambiguation):语义歧义、结构歧义
- 未知语言
三、自然语言处理的基本方法及其发展
(一)基本方法
理性主义 | 经验主义 | |
知识来源 | 与生俱来 | 大量语言数据 |
研究对象 | 语言知识结构,符号、规则 | 语言数据 |
理论 | Chomsky 的语言原则 | Shannon 的信息论 |
应用 | 形式语言 | 统计模型 |
(二)发展
- 萌芽期:1946年,第一台计算机,机器翻译;
- 发展期:1966年,ALPAC报告,基于规则分析方法;
- 繁荣期:20世纪80年代末,基于语料库 的统计方法。
(三)现状
- 取得一定研究成果,根本问题尚未解决;
- 新的研究方向不断涌现,具有极大发展前景