Datawhale_AI夏令营学习笔记

m0_65459553

已于 2024-07-19 16:58:40 修改

阅读量240

点赞数 8

文章标签：学习笔记

于 2024-07-19 16:39:09 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_65459553/article/details/140552868

版权

这是一篇小白的学习笔记。

在刚开始进行学习的时候，基本上都是机械的照着教程一步一步的进行，因而在提交了结果之后返回的成绩并不高。想要真正的学习到东西，这显然是不行的。

首先第一步就是对代码进行理解

这里为了我更方便高效的理解，我使用了chatgpt来辅助我对代码进行逐一的理解。这让我对整个代码的流程有了一定得了解并且尝试着去提升自己模型的可靠性。

首先我进行了最为简单的尝试。将代码中原本定义的采样训练集数量简单的增加，不过效果并不好。既然在这样简单的进行尝试无法有成效时，就再去尝试下一种方法。在这一次的训练集中有着很多的脏数据，那么我就从数据集开始下手，将数据进行整理，把一下类似于（掌声）（笑声）（众笑）等这一类信息进行删除之后，再使用训练集训练模型。

不过在这一步我遇到了一些困难，在对数据进行清理时将一部分数据破坏，导致我只能在load_data函数中加入判断条件

train_en = []
train_zh = []

# 增加错误处理逻辑
for line in train_data:
parts = line.split('\t')
if len(parts) != 2:
print(f"错误行: {line}")
continue
en, zh = parts
train_en.append(en.strip())
train_zh.append(zh.strip())

不过最终虽然能够成功运行得到结果

当时效果还是不尽人意

在试试吧

关注

8
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Datawhale_AI夏令营学习笔记

在这一次的训练集中有着很多的脏数据，那么我就从数据集开始下手，将数据进行整理，把一下类似于（掌声）（笑声）（众笑）等这一类信息进行删除之后，再使用训练集训练模型。这里为了我更方便高效的理解，我使用了chatgpt来辅助我对代码进行逐一的理解。在刚开始进行学习的时候，基本上都是机械的照着教程一步一步的进行，因而在提交了结果之后返回的成绩并不高。不过在这一步我遇到了一些困难，在对数据进行清理时将一部分数据破坏，导致我只能在load_data函数中加入判断条件。print(f"错误行: {line}")
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。