统计机器翻译
机器翻译概述
机器翻译方法
- 直接翻译
将单词、短语或者是句子直接置换成为目标语言译文。 - 基于规则的转换翻译方法
独立分析-独立生成-相关转换
将输入文本抽象成为内部表达形式,转换成为目标语言内部表达形式,然后再生成目标语言文本。
优点在于可以较好的保持原文结构,产生的译文结构与源文结构关系密切,对于语言现象已知、句法结构规范的源语言句子具有较强的处理能力;缺点是分析规则人工编写。 - 基于中间语言的翻译方法
源语言分析成为中间语言,中间语言生成目标语言。
优点在于多种语言的互译减少工作量,缺点在于中间语言表达形式难以定义。
也有很多学者使用统计的方法实现源语言到中间语言的转换和中间语言到目标语言的生成。 - 基于语料库的机器翻译方法
(1)基于记忆的翻译方法。
翻译是根据以往的翻译经验进行的。
基本思路是把句子拆分成为合适片段,然后通过对比找到历史中最相近的目标语言句子或者片段作为翻译结果。
(2)基于实例的翻译方法
对于已知语料进行适当的预处理,然后将其与实例库中的翻译实例进行相似度分析,最后,根据找到的相似实例的译文得到翻译句子的译文。
(3)统计翻译方法
基本观点是所有句子都可能是另一种语言的译文,只是概率的大小不一样而已;
基于这种观点,翻译就是根据观察到的源语言句子,恢复最可能的目标语言句子。
(4)基于神经网络的翻译方法
实现由源语言句子到目标语言句子的映射。
机器翻译现状
目前,比起完全自动的高质量翻译,人机互助要更加现实和贴合实际。
基于噪声信道模型的统计机器翻译原理
基本思路:
翻译系统可以被看作是一个噪声信道,对于一个观察到的信道输出字符串S,寻找一个最大可能的信道输入句子T;即求解T使得概率P(T|S)最大。
数学推导:
a
r
g
m
a
x
T
P
(
T
∣
S
)
=
a
r
g
m
a
x
T
P
(
S
∣
T
)
P
(
T
)
P
(
S
)
=
a
r
g
m
a
x
T
P
(
S
∣
T
)
P
(
T
)
argmax_TP(T|S)=argmax_T\frac{P(S|T)P(T)}{P(S)}=argmax_TP(S|T)P(T)
argmaxTP(T∣S)=argmaxTP(S)P(S∣T)P(T)=argmaxTP(S∣T)P(T)
其中,很容易可以得出P(T)可以用n元语言模型进行表示;
P(S|T)可以运用翻译模型计算。
翻译模型:
A是表示源语言句子和目标语言句子之间的对应关系;S表示源语言句子;T表示目标语言句子。
P
(
S
∣
T
)
=
∑
A
P
(
A
,
S
∣
T
)
P(S|T)=\sum_AP(A,S|T)
P(S∣T)=∑AP(A,S∣T)
可以采用如下的思路进一步展开:
首先确定源语言句子的长度m;其次根据目标语言句子、源语言句子的长度和历史对应关系和历史翻译确定下个对应关系;根据目标语言句子、源语言句子的长度、历史对应关系和历史翻译,再加上刚刚确定的对应关系来确定对应词语的翻译。
使用数学形式可以表达如下:
P
(
S
,
A
∣
T
)
=
P
(
m
,
T
)
Π
j
=
1
m
P
(
a
j
∣
a
1
j
−
1
,
s
1
j
−
1
,
T
,
m
)
P
(
s
j
∣
a
1
j
,
s
1
j
−
1
,
T
,
m
)
P(S,A|T)=P(m,T)\Pi_{j=1}^mP(a_j|a_1^{j-1},s_1^{j-1},T,m)P(s_j|a_1^{j},s_1^{j-1},T,m)
P(S,A∣T)=P(m,T)Πj=1mP(aj∣a1j−1,s1j−1,T,m)P(sj∣a1j,s1j−1,T,m)
IBM的5个翻译模型
附加
拉格朗日法
拉格朗日乘数法(以数学家约瑟夫·拉格朗日命名)是一种寻找多元函数在其变量受到一个或多个条件的约束时的极值的方法。这种方法可以将一个有n个变量与k个约束条件的最优化问题转换为一个解有n + k个变量的方程组的解的问题。