ElitesAI·动手学深度学习PyTorch版学习笔记-机器翻译及相关技术;注意力机制与Seq2seq模型;Transformer

宅家中看到Datawhale的学习号召,在大牛云集的群上找到了一个很佛系的小组,战战兢兢地开始了小白的深度学习之旅。感谢Datawhale、伯禹教育、和鲸科技,感谢课程制作者、组织者、各位助教以及其他志愿者!

1 机器翻译及相关技术
1.1 概念
机器翻译就是将一段文本从一种语言翻译为另一种语言。机器翻译的输出是单词序列,输出序列和输入序列的长度可能不同。
1.2 预处理
首先要对输入文本进行清洗。首先删去超出编码格式的数据(非字符数据),然后对字符串组成的单词按照句子组成规律进行分词(python有许多成熟的分词模块可以直接使用),并对分词后的单词建立词典,再转化为适合神经网络输入的小批量格式(Encoder)。
1.3 翻译
然后载入翻译数据集,分别与输入数据的词典进行比较,再将其翻译为输出数据的词典(Decoder),然后按照输入数据的单词顺序进行排列(可能按照翻译的一些规则进行调整,不一定与输入数据完全一致),形成翻译后的输出序列。
Beam Search没有完全看懂。贪心算法有些模糊了解,这个参数是翻译数据集内置的吗?维特比算法不懂。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值