LLM应用实战: 产业治理多标签分类

mengrennwpu

已于 2024-08-20 17:07:55 修改

阅读量906

点赞数 25

分类专栏： LLM 文章标签： LLM 多分类

于 2024-08-20 17:06:51 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/MENGERN/article/details/141363002

版权

1. 背景

许久未见，甚是想念~
近期本qiang~换了工作，处于新业务适应期，因此文章有一段时间未更新，理解万岁！
现在正在着手的工作是产业治理方面，主要负责其中一个功能模块，即按照产业治理标准体系，针对企业介绍及其专利数据进行多标签分类。
本期的干货就是分享关于如何基于LLM实现数量多、层级多的多标签分类的实战经验，各位读者可以参考借鉴。

2. 数据介绍

2.1 标签体系

产业治理方面的标签体系共计200+个，每个标签共有4个层级，且第3、4层级有标签含义的概括信息。

2.2 原始数据

1.企业官网介绍数据，包括基本介绍、主要产品等
2.企业专利数据，包括专利名称和专利摘要信息，且专利的数据量大。

2.3 LLM选型

经调研，采用Qwen2-72B-Instruct-GPTQ-Int4量化版本，占用显存更少，且效果与非量化相当，具体可见Qwen2官网说明。

3. 技术难点

1.团队无标注人员，因此无法使用Bert类小模型完成多标签分类任务
2.涉及垂直领域，即使有标注人员，也需要很强的背景知识，方能开展标注
3.标签数量多，层次深，且项目对准确率有要求

4. 方案设计

由于缺少标注人员，且对标注员的背景要求高，因此只能选择LLM进行任务开展。
标签体系中每个标签的含义不够具象，属于总结性的，针对特定场景，LLM

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

mengrennwpu 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。