山书学习第四次笔记

机器翻译及相关技术


数据预处理,一堆文本中,可能会出现不再ASCII可见字符的范围中,有些数需其他的规范中,超出了gbk的范围,所以应该去除。

原理

翻译的过程就相当于,把初始文本翻译成一个过度文本,然后再用一个解码器,来输出成想要的语言。
在这里插入图片描述

其中encoder为:
在这里插入图片描述
decoder:
在这里插入图片描述

注意力机制与Seq2seq模型

注意力机制

翻译的过程中,有些时候直接一个字一个字的翻译是不合逻辑的。就比如hello world翻译成法语的时候,会直接翻译成Bonjour le monde,但这样是不对的。Bonjour单独做hello的意思,后面不能添加其他。为了解决这种问题,应该着重于world来翻译。
在这里插入图片描述

公示:
在这里插入图片描述

Seq2seq

在这里插入图片描述

解码器

在这里插入图片描述

注:transfromer章节和注意力章节着实看不懂,待之后再看。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值