一、跑通baseline
二、 赛事解读+基础baseline讲解
从给定的<客服>与<客户>的群聊对话中, 提取出指定的字段信息,即企业收集了大量的客服与客户之间的对话记录,这些对话记录属于非结构化数据,而企业想通过大模型技术,将它们变为结构化数据,以用于后续的数据治理和数据挖掘,为企业带来更多价值。
输入:客服对话记录
输出:结构化json数据
本赛题属于NLP字段提取,从较长一段文本中提取出21种信息字段,难度进行了人为的分级评定。
prompt工程(对此部分掌握不够深入需进一步学习)
prompt的编写规则为:任务目标——抽取数据定义——抽取内容引入——抽取规则强调
在prompt的调试中可能产生的问题:1.大模型总是不能直接输出python直接可读取的json格式;2.大模型偶尔会出现缺少字段的情况,故使用check_and_complete_json_format函数对大模型抽取的结果进行字段格式的检查以及缺少的字段进行补全
三、进阶baseline2【微调方向】
这部分的思路主要为:制作数据集——训练数据上传——测试数据上传——平台微调。后三部分主要通过微调平台进行自动化的操作,因此本节关键在于了解数据集相对于baseline01发生了什么变化,也借此过程进一步深入了对prompt的了解。
baseline1中直接将群聊对话作为数据集,问题:上下文过长——超过限制;抽取效果变差;训练成本大
baseline2的promt对需要抽取的任务进行了总结,主要分为用户基本信息、用户意向与预算信息、用户购买准备情况、跟进计划信息。形象来说是将原来1个大漏斗需要做的事情分给了4个小漏斗,提高了训练效率,节约运算资源,抽取效果也更好。
提交结果
下载output.json文件,去大赛官方提交结果!
四、心得体会
在进行这次赛事的过程中,我深刻体会到了从非结构化数据提取结构化信息的挑战与技术进步。赛题要求我们从客服与客户的对话记录中抽取多种信息字段,并转化为结构化的JSON数据,这对于企业的数据治理和挖掘具有重要意义。 首先,理解赛题的核心目标是关键。从长篇对话中提取21种信息字段,要求准确性和完整性是至关重要的。这要求我们不仅要熟悉NLP技术,还要精通数据清洗、特征工程等技能,以确保提取的数据具有高质量和可用性。
其次,赛题的分级评定和baseline的构建带来了新的思路。通过分级评定,我们可以逐步优化和调整模型,从而提高数据抽取的准确率和效率。Baseline的搭建不仅仅是简单的开始,更是一个持续改进的过程,需要不断优化模型和算法以应对真实场景中的复杂性。 在实际操作中,我学会了如何处理文本数据的上下文过长问题,并有效地提高了抽取效果和运算资源的利用率。通过微调数据集和模型,我们不仅能更好地适应赛题需求,还能够在实践中不断深化对NLP技术的理解和应用。 加深了我对NLP技术和数据挖掘的理解,这些经验不仅对当前赛事有所帮助,也将对我的未来学习和职业发展产生深远的影响。