自然语言处理总复习(九)—— 机器翻译

一、概述

1. 定义

用计算机实现从一种自然语言(源语言/source language)到另一种自然语言(目标语言/target language)文本的翻译。

2. 分类
  • Human Assisted Machine Translation (HAMT) 人助机译
  • Computer Aided Translation (CAT) 机助人译
  • Fully Automatic Machine Translation (FAMT) 全自动机器翻译
3. 发展历史

在这里插入图片描述

二、机器翻译的技术路线

  • 基于规则的机器翻译 —— 基于理性主义的方法;
  • 实例统计的机器翻译 ——经验主义的方法或者基于语料库的方法;

但是这种说法不是很确切。因为语料库已经用于所有的机器翻译开发中。只不过是直接应用还是间接应用。
在这里插入图片描述

实用化的策略

在这里插入图片描述

(一)基于规则

1. 直接式翻译

进行词汇的更换

2. 转换式翻译

(1)通过句法分析得到某种内部的结果化表达

在这里插入图片描述

(2)变换句型

在这里插入图片描述

(3)目标语言的形态生成

在这里插入图片描述

(二)基于实例

在这里插入图片描述

基于实例的机器翻译问题

在这里插入图片描述

(三)基于统计

1. 基于统计的原因

在这里插入图片描述

2. 要素

(1)数据

大规模的双语语料库 (比如107–109 词次) ,它用于训练统计翻译模型。大规模的单语数据库,它用于训练语言模型。

(2)学习

模型的学习(也叫训练),模型包括系统架构及其各项参数。在系统架构已经确定下,利用以上数据可以自动学习翻译模型的各项参数。

(3)搜索

翻译过程 (也叫解码过程或者搜索过程)。对一个新的句子,利用学习得到的模型产生多个候选句子,并且利用一种搜索方法,求得一个最好的译文。

3. 例子

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4. 基于词的统计机器翻译(IBM Models)

在这里插入图片描述

(1)统计机器翻译系统

在这里插入图片描述

(2)贝叶斯规则

在这里插入图片描述

(3)统计机器学习的三个问题

在这里插入图片描述

1)语言模型
a. 经典的语言模型 —— N-Grams模型

模型目标: 选择哪一个句子更像一个句子

He is on the soccer field
He is in the soccer field

Is table the on cup the
The cup is on the table

模型方法:

在这里插入图片描述

1)翻译模型

在这里插入图片描述

三、机器翻译的评价

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

四、利用互联网获取双语预料

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Victayria

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值