#datawhale #AI夏令营 #夏令营
在第一次跑完baseline的时候,对于小白的我来说,我很好奇这么简短的几行代码,竟然有这么大的魔力。正当欣喜于能够成功运行代码时,学习群的一个26分的大佬笔记引起了我的注意——原来想要我们有很多的地方需要提升。
在大模型时代,数据的质量对于模型训练后的效果非常重要,所以我们如果将数据处理成优质的数据,就很有可能得到不错的效果。
所以我们需要进行数据集的处理。
1、数据集处理
加载一些包
2、训练数据集制作
这里我们发现需要大概40多分钟。(插播知识点:对于大模型来说,成百上千的数据来微调其实就很多了,足够了)
3、测试数据集制作
也是需要20分钟左右
4、模型微调
训练集
测试集
微调
注意这个排队要挺久的
5、微调推理
之后回到这里进行最后的流程。
欢迎大家踊跃参加,真的能够学到挺多东西,加油!