基于星火大模型的群聊对话分角色要素提取挑战赛|#AI夏令营#Datawhale#夏令营--学习感悟&数据清洗与提示工程总结分享

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


留给第一次参加活动同学的碎碎念

提示:这是笔者在第一次参加DataWhale夏令营活动后的最大收获:

  1. 关注 ddl !这几乎与辛苦地付出同样重要,对于手头还有其他要紧事需要处理的同学,在比赛周期中停滞几天是很正常的,但由于这个周期本身就短,如果没有来得及提交作品,很容易造成遗憾,这里特别感谢夏令营大模型技术1群的助教嘉诺同学,多次地提醒我们 ddl ,让我幸运地赶上了最后的提交节点,对于很多专注上分的同学也是如此,在沉浸这一过程的期间,也要关注最后的提交时间,避免成果造成浪费。
  2. 重视 baseline 的代码精读,Task4 中的提分思路固然重要,但是如果没有深入理解 baseline 的整体思路和具体实现流程,很可能在动手实现想法时陷入疑问和自我否定,更不要说写代码时的 bug 频出了,其实在实现后续想法时,如果能复用baseline中的一些函数或者其中某个功能的代码实现,就能在短时间内最大程度上地避免错误,嘿嘿,站在巨人的肩膀上继续发明创造。
  3. 当有多个提分思路时,由于时间有限,要尽量找出其中最有效的提分点,这一过程可以通过理论分析、与同学讨论、借鉴该领域或相似领域的优秀学术成果等方法。

提示:以下是本篇文章正文内容,相关内容仅供参考,欢迎大家在留言区同我讨论

一、提分 idea

在微调的基础上,我围绕着“数据清洗”和“提示工程”两个提分技巧,进行了思考,分别如下:

  1. 数据清洗:首先,由于训练数据中有一些数据超出了星火的上下文长度,并且很多数据中包含重复和冗余信息,所以要先办法去除这部分冗余信息,看到群里有些小伙伴通过把每个人的对话拼接到一段然后做查找、或者把对话分块然后做语义相似度比较等方式,前一种方法在实现中多少有些繁杂,后一种方法要引入嵌入模型,感觉时间上划不来,所以我个人偏向于基于大模型强大的语义理解能力,通过描述去噪的要求,提示其来去除冗余信息。
    其次,图片、超链接、特殊符号等信息是一定要去除的,这可以使用正则表达式完成,这里不多赘述。
  2. 提示工程:待抽取数据可以分为 4 类,分别为 “客户基本信息”、“客户意向和预算信息”、“客户购买准备情况”、“跟进信息”,分析这4类信息的关系,可以发现,客户基本信息可以辅助大模型定位目标客户的聊天内容,从而利于更准确地剩下的 3 类信息,而“客户购买准备情况” 也和 “客户意向和预算” 这一信息紧密相关,因此,可以尝试思维链的方法,通过以下步骤解决抽取到所有的信息:
    (1)构造相应提示,仅提取客户的基本信息;
    (2)结合步骤(1)的输出,构造提示,抽取客户的意向和预算信息;
    (3)结合步骤(1)和(2)的输出,构造提示,抽取客户的购买准备情况;
    (4)结合步骤(1)的输出,构造提示,抽取下一步跟进信息;

二、参赛后的感悟

  1. 整个第1期活动下来,给我的感觉就是特别快,我个人是在跑通 Task1 当时精读了 baseline1 的代码,感觉理解了初始提示的构造思路和代码实现中重要函数的实现过程后,就去忙手头的其他要紧事了,一直拖到在群里看到 baseline2精读时,才意识到学习周期快结束了,吓得我赶紧问小助手 ddl ,在评估了剩余工作和时间后,我开始了自己的折腾,从精读 baseline2 开始,逐个完成设计的每步流程,其中很多步骤都感觉没有做到满意,感觉还有很大的思考和提升空间,但无奈时间不停转,只能先专注于完成了。
  2. 找到一组志同道合有共同兴趣的小伙伴一起很重要,感觉这类的比赛还是较困难的,学习周期也短,自己一个人单干确实挺难为人的,很多时候,如果多个伙伴能一块编写不同的功能模块,就能省下思考和设计的时间,来为下一步的改进提供支撑。并且,多个人共同讨论碰撞出的火花和个人苦苦思考的感觉和效率是完全不一样滴,期待下一期活动时,能够相遇志同道合的小伙伴,我们一起思考,一起提高!
  • 23
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值