[Datawhale AI夏令营 2024 第四期] 从零入门大模型微调之旅的总结

comedate

已于 2024-08-17 23:56:45 修改

阅读量142

点赞数 3

分类专栏： Python实用源码 DataWhale 技术分享文章标签： DataWhale AI 夏令营大模型微调星火大模型阅读理解题库构建挑战赛

于 2024-08-17 23:48:42 首次发布

本文链接：https://blog.csdn.net/comedate/article/details/141288522

版权

Python实用源码同时被 3 个专栏收录

106 篇文章 1 订阅

订阅专栏

技术分享

58 篇文章 1 订阅

订阅专栏

DataWhale

1 篇文章 0 订阅

订阅专栏

0. 引言：

在人工智能飞速发展的今天，掌握大模型微调技能对于从事 AI 研究和开发的专业人士来说至关重要。因此，Datawhale AI夏令营 2024 第四期] 从零入门大模型微调之旅；顺便参加了星火大模型驱动阅读理解题库构建挑战赛。

1. DataWhale 夏令营：

DataWhale AI 夏令营是一个为期数周的密集培训项目，它给像我这样的初学者带来了多方面的好处。
首先，夏令营提供了由行业专家精心设计的课程体系，内容覆盖了从基础理论到高级实践的各个层面。其次，夏令营的实战导向教学让我得以将理论知识应用于实际问题中，通过项目作业和团队合作，我的编程能力和问题解决能力都得到了显著提高。此外，夏令营还为我提供了与来自不同背景的同行交流的机会，这些交流极大地拓宽了我的视野并激发了我对未来可能研究方向的思考。

2. 星火大模型驱动阅读理解题库构建挑战赛：

为了有效地进行大模型微调，需要参加星火大模型驱动阅读理解构建挑战赛。得益于 DataWhale AI 的 Baseline, 可以自动化的处理初赛的文本，减少数据集的处理时间；
在这里插入图片描述
目前的几次提交，主要是比较精细化的清洗训练数据集，满足大赛的要求；比如说：数据集中的错误字符，错误答案，数据集中的问题过少等；只是清洗训练数据集，就可以提高分数；说明金标准的数据集的重要性；

目前，觉得训练的数据集，还可以挖掘得更好一下，

出题不足 4 道题目，需要通过数据扩增的方式，填补；
Promot 工程更科学一些；
添加训练集中没有的新的数据集，进行扩增数据

针对数据线下需要补充的知识点，也记录下来：

one shot learining 策略以及 Paper: https://arxiv.org/pdf/2312.10302
本地实现结果评分

3.结论：

通过参加DataWhale AI夏令营，我不仅掌握了大模型微调的关键技能，更重要的是学会了如何持续学习和自我提升。在这个充满挑战和机遇的AI时代，DataWhale给予我的不仅仅是知识，更是前行的动力和方向。我将这份感激之情转化为行动，继续在我的AI旅程上不断进步，希望将来也能为这个社区做出自己的贡献。在此，我再次向DataWhale表示最诚挚的谢意，并期待未来有更多机会参与这样有意义的活动。',