Datawhale组队学习 | NLP文本分类比赛全流程体验+Docker学习笔记

最新推荐文章于 2022-08-09 11:42:32 发布

Leonadoice

最新推荐文章于 2022-08-09 11:42:32 发布

阅读量270

点赞数 1

分类专栏：算法比赛

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43145926/article/details/113829355

版权

本文作者参加Datawhale组织的NLP文本分类比赛，分享了从环境配置、文件配置到跑通baseline的全过程，以及Docker的安装与使用经验，包括创建云端镜像仓库和提交步骤。遇到的问题如CUDA内存不足，通过调整batch_size解决。作者强调了团队互助在学习中的重要性。

摘要由CSDN通过智能技术生成

本博客记录的是Datawhale组织的竞赛组队学习NLP赛事，因为我一直很想打比赛但又不知道怎么入门，所以非常开心能有这样的机会完整体验一遍比赛流程。

比赛的详细内容以及开源的baseline资料如下：
比赛地址：https://tianchi.aliyun.com/s/3bd272d942f97725286a8e44f40f3f74
开源内容：https://github.com/finlay-liu/tianchi-multi-task-nlp 4

环境配置

以下是我的环境配置：

win10 专业版（因为家庭版安装docker太麻烦了于是我升级成了专业版）
python 3.8
pytorch 1.7.1
transformers包
sklearn包

在这里插入图片描述

文件配置

主要根据baseline的教程步骤下载好bert（网址）配置好文件：config.json、vocab.txt、pytorch_model.bin
以及数据集，其中网上下好的数据集名字需要自己手动改成对应的名字并放在相应的文件夹下。文件目录样例：

tianchi-multi-task-nlp/tianchi_datasets/OCNLI/total.csv
tianchi-multi-task-nlp/tianchi_datasets/OCNLI/test.csv

跑通baseline

将上面的文件都配置好以后开始按照教程步骤训练：

分开训练集和验证集，默认验证集是各3000条数据，参数可以自己修改：

python ./generate_data.py

但在这个地方会出现报错：
在这里插入图片描述
解决办法就是在错误定位的位置加上：,encoding='utf-8'即可

训练模型，会保存验证集上平均f1分数最高的模型到 ./saved_best.pt

python ./train.py

但是这个直接运行，会在训练到60000th的时候报错：
在这里插入图片描述

解决办法是在data_generator.py文件的这个部分加上3个elif语句，即下面3个红框即可运行ÿ

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Datawhale组队学习 | NLP文本分类比赛全流程体验+Docker学习笔记

baseline的学习还有如何装docker之类的
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。