Datawhale AI 夏令营task2的纯小白

柏蓝神

于 2024-07-17 21:29:15 发布

阅读量410

点赞数 16

文章标签：人工智能 nlp 机器翻译 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Aris_god1/article/details/140498359

版权

Datawhale AI 夏令营task2的纯小白

第一天的时候，感觉一键跑出来，wwwwww，真的爽，当然很明显的是当真正开始一步一步读代码的时候，才会发现严谨度和复杂度。

目录

Datawhale AI 夏令营task2的纯小白
配置环境
数据预处理
训练模型
翻译质量评价
总结

配置环境

这节课使用的代码

因为比较粗心，没有及时打开这个文件，我手动配了一下环境（最好杜绝这种情况）

还是在这个魔搭平台上进行。爆红半天之后好了

虽然是按代码一行一行手动搭建，但是在这过程中还是暴露出一些学习上的不足，比如，对Linux的命令依然十分的陌生，我个人是在自学Linux，但是很明显就是一个学艺不精的状态，还是需要足够的练习。同时感谢前辈的耐心指导。前辈的帮助
耐心答疑的前辈

数据预处理

主要包括以下几个方面：

1.清洗和规范化数据：去除无关信息（如拟声词），统一格式，分句和分段

2.分词：将句子分解成单词或词素

3.构建词汇表和词向量：构建词汇表，并为每个词分配一个唯一的索引。

4.序列截断和填充：限制输入序列的长度，补全不够长的序列至统一

5.添加特殊标记：在序列两端添加（Sequence Start）和（Sequence End）标记起始和结束。

6.数据增强：随机替换或删除词：在训练数据中随机替换或删除一些词，增强模型的鲁棒性，同义词替换：使用同义词替换原文中的词，增加训练数据的多样性。

7.数据分割：赛题中已预设

训练模型

深受启发
之前一直不了解特征向量，这个一说感觉理解很多

解码器和编码器概念的引入让机器翻译的原理感觉更进一步。
自己整了个小图片
课程给的例子
再细致就不懂辣

翻译质量评价

感觉不错的图
这图片给的，这块感觉都不需要我总结了哎哎

总结

task2还是主要介绍给我们机器翻译的操作的步骤，把这个整体框架展现在我们眼前，想必之后的操作会更加难（哭）。

关注

16
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Datawhale AI 夏令营task2的纯小白

这个夏令营的task2还是主要介绍给我们机器翻译的操作的步骤，把这个整体框架展现在我们眼前，想必之后的操作会更加难（哭）。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。