基于星火大模型的群聊对话分角色要素提取挑战赛——首次体验笔记与思考#AI夏令营#Datawhale#夏令营

最新推荐文章于 2024-10-13 11:08:06 发布

SayCheese_me

最新推荐文章于 2024-10-13 11:08:06 发布

阅读量448

点赞数 7

分类专栏：大模型训练学习文章标签：笔记人工智能数据库 python

本文链接：https://blog.csdn.net/SayCheese_me/article/details/140136035

版权

大模型训练学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

经过老师推荐，同时也是我们项目需要，我来参加了这次的夏令营活动，旨在提高我对大模型的了解，以及学习利用大模型进行训练的知识

赛事链接: https://challenge.xfyun.cn/h5/detail?type=role-element-extraction&ch=dw24_y0SCtd

首先第一天我认真了解了此次任务，大概要求就是通过利用讯飞在线模型API对一些聊天记录进行分析训练，最终提取出有效内容，训练并导出文件，提交测评得出最终评分，根据训练质量得出得分高低。

第一天跟直播进行了简单了解，并完成的基础的baseline得出得分为16点多

第一次得分16.81212

第二天，就是今天我通过查看直播，同时简单看了下大佬的笔记

传送门: 基于星火大模型的群聊对话分角色要素提取挑战赛|#AI夏令营#Datawhale#夏令营-Lora微调与prompt构造

我初步了解了微调的大概方向
dataset目录下有两个文件是训练的原始数据，有train和text_data两个json文件
在这里插入图片描述
我也注意到这里面有大量例如【】[]这种内容，重复且没有意义，所有我也借鉴大佬的代码，同时又增加了其他的参数，由于代码基础不好，我就让文心一言帮我写了一下
下面展示一下我修改后的代码

# 删除表情图片、超链接
train_data['chat_text'] = train_data['chat_text'].str.replace(r"\[[^\[\]]{2,10}\]", "", regex=True)
train_data['chat_text'] = train_data['chat_text'].str.replace("https?://\S+", "", regex=True)
test_data['chat_text'] = test_data['chat_text'].str.replace(r"\[[^\[\]]{2,10}\]", "", regex=True)
test_data['chat_text'] = test_data['chat_text'].str.replace("https?://\S+", "", regex=True)


pattern_reply = r'这是一条引用/回复消息： "[^"]*"(?: ------)?'  
# 应用正则表达式到train_data和test_data  
train_data['chat_text'] = train_data['chat_text'].str.replace(pattern_reply, "", regex=True)  
test_data['chat_text'] = test_data['chat_text'].str.replace(pattern_reply, "", regex=True)