自然语言处理总复习(九)—— 机器翻译
一、概述
1. 定义
用计算机实现从一种自然语言(源语言/source language)到另一种自然语言(目标语言/target language)文本的翻译。
2. 分类
- Human Assisted Machine Translation (HAMT) 人助机译
- Computer Aided Translation (CAT) 机助人译
- Fully Automatic Machine Translation (FAMT) 全自动机器翻译
3. 发展历史
二、机器翻译的技术路线
- 基于规则的机器翻译 —— 基于理性主义的方法;
- 于实例和统计的机器翻译 ——经验主义的方法或者基于语料库的方法;
但是这种说法不是很确切。因为语料库已经用于所有的机器翻译开发中。只不过是直接应用还是间接应用。
实用化的策略
(一)基于规则
1. 直接式翻译
进行词汇的更换
2. 转换式翻译
(1)通过句法分析得到某种内部的结果化表达
(2)变换句型
(3)目标语言的形态生成
(二)基于实例
基于实例的机器翻译问题
(三)基于统计
1. 基于统计的原因
2. 要素
(1)数据
大规模的双语语料库 (比如107–109 词次) ,它用于训练统计翻译模型。大规模的单语数据库,它用于训练语言模型。
(2)学习
模型的学习(也叫训练),模型包括系统架构及其各项参数。在系统架构已经确定下,利用以上数据可以自动学习翻译模型的各项参数。
(3)搜索
翻译过程 (也叫解码过程或者搜索过程)。对一个新的句子,利用学习得到的模型产生多个候选句子,并且利用一种搜索方法,求得一个最好的译文。
3. 例子
4. 基于词的统计机器翻译(IBM Models)
(1)统计机器翻译系统
(2)贝叶斯规则
(3)统计机器学习的三个问题
1)语言模型
a. 经典的语言模型 —— N-Grams模型
模型目标: 选择哪一个句子更像一个句子
He is on the soccer field
He is in the soccer field
Is table the on cup the
The cup is on the table
模型方法:
1)翻译模型
三、机器翻译的评价
四、利用互联网获取双语预料