学习文档:Datawhale (linklearner.com)
粗略总结:
看不懂脚本,baseline教程也看不太懂,可能基础确实比较差,后面有空再补。目前只是囫囵吞枣的跟着baseline走了好几遍,当然也G了几遍。
如果要跟着baseline走,有两条建议:
- 配置好环境(就是把baseline里面该下载的东西都下好),之后最好把配好的环境保存为镜像,方便后面训练G了迅速恢复。
- 修改\toolkit文件夹里面训练的.sh文件配置,防止爆显存(我租的24G4090就爆了,跑了几个小时都没结果)。
头几次遇到的问题就是:submit.zip里面没有文件,压缩包大小只有16k,正常应该有个1.6Mb才对。后来发现原因是baseline的训练脚本和我租的GPU配置不匹配,最后跑着跑着会爆显存:out of memory。但是这些报错会藏在一大堆命令行的[INFO]中,且没有明显颜色区分,所以也不好找。修改训练脚本配置可以解决爆显存的问题,这里引用hand用户的评论:
在反复跑baseline过程中,自己搜着学习了一些.sh,.yaml,.jasonl文件的概念。在AutoDL平台和阿里云平台各跑了一遍,分数差的还挺多。AutoDL:0.6982,阿里云:0.5985。除开二者用的的配置不太一样,其余并没有什么太大不同,不知道为什么差距这么大。后面想明白了再来补坑。