动手学深度学习之机器翻译和数据集

最新推荐文章于 2024-08-19 14:26:44 发布

water19111213

最新推荐文章于 2024-08-19 14:26:44 发布

阅读量995

点赞数

文章标签：神经网络机器学习机器翻译人工智能

本文链接：https://blog.csdn.net/water19111213/article/details/104365061

版权

本文是基于伯禹学习平台《动手学深度学习》的机器翻译和数据集部分的学习笔记，介绍了数据预处理、分词、建立词典、序列到序列模型、Encoder-Decoder结构、损失函数及Beam Search等关键概念。通过神经网络解决机器翻译问题，重点讨论了如何处理不同长度的输出序列，并探讨了数据清洗和预处理的重要性。

摘要由CSDN通过智能技术生成

参考伯禹学习平台《动手学深度学习》课程内容内容撰写的学习笔记
原文链接：https://www.boyuai.com/elites/course/cZu18YmweLv10OeV/video/MZn2AdNyGzumTprVPwV3y
感谢伯禹平台，Datawhale，和鲸，AWS给我们提供的免费学习机会！！
总的学习感受：伯禹的课程做的很好，课程非常系统，每个较高级别的课程都会有需要掌握的前续基础知识的介绍，因此很适合本人这种基础较差的同学学习，建议基础较差的同学可以关注伯禹的其他课程：
数学基础：https://www.boyuai.com/elites/course/D91JM0bv72Zop1D3
机器学习基础：https://www.boyuai.com/elites/course/5ICEBwpbHVwwnK3C

机器翻译和数据集

机器翻译（MT）：将一段文本从一种语言自动翻译为另一种语言，用神经网络解决这个问题通常称为神经机器翻译（NMT）。
主要特征：输出是单词序列而不是单个单词。输出序列的长度可能与源序列的长度不同。

数据预处理

将数据集清洗、转化为神经网络的输入minbatch
字符在计算机里是以编码的形式存在，我们通常所用的空格是 \x20 ，是在标准ASCII可见字符 0x20~0x7e 范围内。
而 \xa0 属于 latin1 （ISO/IEC_8859-1）中的扩展字符集字符，代表不间断空白符nbsp(non-breaking space)，超出gbk编码范围，是需要去除的特殊字符。再数据预处理的过程中，我

最低0.47元/天解锁文章

water19111213

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
动手学深度学习之机器翻译和数据集

参考伯禹学习平台《动手学深度学习》课程内容内容撰写的学习笔记原文链接：https://www.boyuai.com/elites/course/cZu18YmweLv10OeV/video/whY-8BhPmsle8wyEEyTST感谢伯禹平台，Datawhale，和鲸，AWS给我们提供的免费学习机会！！总的学习感受：伯禹的课程做的很好，课程非常系统，每个较高级别的课程都会有需要掌握的前续基...
复制链接

扫一扫