简要说明:机器翻译演进过程

  • 基于规则的机器翻译(RBMT) :上世纪70年代
  • 基于实例的机器翻译(EBMT):1984年
  • 统计机器翻译(SMT):1990年初
  • 神经网络机器翻译(NMT):2016年左右起

基于规则的机器翻译(RBMT)

Rule-BasedMachine Translation,兴起于上世纪70年代,基于语言学规则,让当时运算缓慢的机器重复翻译人员的工作方式。
变种:
**直接机器翻译:**它会将文本分成词,然后翻译这些词,再稍微校正一下形态,最后协调句法得到结果,消耗大量语言学家去为每个词编写复杂规则。
**基于迁移的机器翻译:**操作句子结构,不是操作每个词,这样可以得到好些的词序。词结构的数量比单个的词要多得多,这又会变得更加复杂。
**语际机器翻译:**利用中间表征(世界语言),做两种语言间的过渡。英文翻译成中间表征,中间表征翻译成中文,从而将英文翻译成中文。

基于实例的机器翻译(EBMT)

Example-Basedmachine Translation,1984年,長尾真(京都大学)提出了一个思想:使用已有的短语而不是重复进行翻译。
**变革意义在于:**以前是不断向机器输入规则,现在是向机器输入翻译结果,不必花费多年时间构建语言规则和例外。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
神经网络机器翻译方法的工作原理如下: 1. 数据预处理:首先,将源语言和目标语言的句子进行分词,并将每个词转换为对应的向量表示。这可以使用词嵌入技术,如Word2Vec或GloVe来实现。 2. 编码器-解码器结构:神经网络机器翻译方法通常采用编码器-解码器结构。编码器将源语言句子的向量表示作为输入,并将其转换为一个固定长度的上下文向量。解码器将上下文向量作为输入,并生成目标语言句子的向量表示。 3. 编码器:编码器通常是一个循环神经网络(RNN)或者是其变种,如长短时记忆网络(LSTM)或门控循环单元(GRU)。编码器逐个词地处理源语言句子,并将每个词的向量表示输入到RNN中。RNN会保留之前的上下文信息,并将其传递给下一个词的处理。 4. 上下文向量:编码器的最后一个隐藏状态被用作上下文向量。它包含了源语言句子的所有信息,并且被传递给解码器。 5. 解码器:解码器也是一个RNN,它以上下文向量作为输入,并生成目标语言句子的向量表示。解码器逐个词地生成目标语言句子,并在每个时间步骤中使用上一个时间步骤的隐藏状态和生成的词的向量表示。 6. 注意力机制:为了更好地捕捉源语言和目标语言之间的对应关系,常常使用注意力机制。注意力机制允许解码器在生成每个目标语言词时,根据源语言句子的不同部分进行加权。 7. 训练:神经网络机器翻译方法的训练通常使用最大似然估计(MLE)来最小化目标语言句子的生成概率与真实目标语言句子的差距。训练过程中,通过反向传播算法来更新神经网络的参数。 8. 推断:在推断阶段,给定一个源语言句子,使用训练好的神经网络模型来生成目标语言句子。通常使用贪婪搜索或束搜索等方法来选择生成的词。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值