17现代循环神经网络—机器翻译,编码器-解码器

1.机器翻译与数据集

  • 语言模型是自然语言处理的关键,而机器翻译是语言模型最成功的基准测试
  • 机器翻译(machine translation)指的是将序列从一种语言自动翻译成另一种语言,它是是将输入序列转换成输出序列的序列转换模型(sequence transduction)的核心问题
  • 几十年来,在使用神经网络进行端到端学习的兴起之前,统计学方法在这一领域一直占据着主导地位。因为统计机器翻译(statisticalmachine translation)涉及了翻译模型和语言模型等组成部分的统计分析, 因此基于神经网络的方法通常被称为神经机器翻译(neuralmachine translation), 用于将两种翻译模型区分开来
  • 与语料库是单一语言的语言模型问题不同,机器翻译的数据集是由源语言和目标语言的文本序列对组成的

如何将预处理后的数据加载到小批量中用于训练

1、下载数据集
  • 下载由Tatoeba项目的双语句子对组成的“英-法”数据集

  • 数据集中的每一行都是制表符分隔的文本序列对

  • 序列对由英文文本序列和

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Unknown To Known

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值