1. 背景
许久未见,甚是想念~
近期本qiang~换了工作,处于新业务适应期,因此文章有一段时间未更新,理解万岁!
现在正在着手的工作是产业治理方面,主要负责其中一个功能模块,即按照产业治理标准体系,针对企业介绍及其专利数据进行多标签分类。
本期的干货就是分享关于如何基于LLM实现数量多、层级多的多标签分类的实战经验,各位读者可以参考借鉴。
2. 数据介绍
2.1 标签体系
产业治理方面的标签体系共计200+个,每个标签共有4个层级,且第3、4层级有标签含义的概括信息。
2.2 原始数据
1.企业官网介绍数据,包括基本介绍、主要产品等
2.企业专利数据,包括专利名称和专利摘要信息,且专利的数据量大。
2.3 LLM选型
经调研,采用Qwen2-72B-Instruct-GPTQ-Int4量化版本,占用显存更少,且效果与非量化相当,具体可见Qwen2官网说明。
3. 技术难点
1.团队无标注人员,因此无法使用Bert类小模型完成多标签分类任务
2.涉及垂直领域,即使有标注人员,也需要很强的背景知识,方能开展标注
3.标签数量多,层次深,且项目对准确率有要求
4. 方案设计
由于缺少标注人员,且对标注员的背景要求高,因此只能选择LLM进行任务开展。
标签体系中每个标签的含义不够具象,属于总结性的,针对特定场景,LLM