机器翻译及相关技术
数据预处理,一堆文本中,可能会出现不再ASCII可见字符的范围中,有些数需其他的规范中,超出了gbk的范围,所以应该去除。
原理
翻译的过程就相当于,把初始文本翻译成一个过度文本,然后再用一个解码器,来输出成想要的语言。
其中encoder为:
decoder:
注意力机制与Seq2seq模型
注意力机制
翻译的过程中,有些时候直接一个字一个字的翻译是不合逻辑的。就比如hello world翻译成法语的时候,会直接翻译成Bonjour le monde,但这样是不对的。Bonjour单独做hello的意思,后面不能添加其他。为了解决这种问题,应该着重于world来翻译。
公示:
Seq2seq
解码器
注:transfromer章节和注意力章节着实看不懂,待之后再看。