对于上千个类别的多标签文本分类任务，使用RAG进行分类:In-Context Learning for Extreme Multi-Label Classification

最新推荐文章于 2024-07-27 17:06:15 发布

蒸土豆的技术细节

最新推荐文章于 2024-07-27 17:06:15 发布

阅读量124

点赞数 2

文章标签：分类人工智能数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39006282/article/details/140726484

版权

思路如下:
1.通过7B模型，让文章输出多个术语or关键词。
2.术语和关键词、标签，这俩东西都能embedding进空间里。我们希望前者能与正确的多标签距离更近。不过这里并没有做任何对齐，只是使用预训练模型的能力而已。
3.rerank使用gpt，排名靠前的就是更相似的。

这里面还有一些细节：
1.使用DSPy框架，动态地分配few-shot给prompt。神奇的是即使是这个阶段，论文也没让7B模型做in-context learning。
2.对齐模型要看什么任务。对于职位标签，论文用all-mpnet-base-v2。对于医学相关，使用BioLORD。这俩都是预训练模型，使用但不微调。

kimi解析论文的结果

蒸土豆的技术细节

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
对于上千个类别的多标签文本分类任务，使用RAG进行分类:In-Context Learning for Extreme Multi-Label Classification

2.术语和关键词、标签，这俩东西都能embedding进空间里。不过这里并没有做任何对齐，只是使用预训练模型的能力而已。对于职位标签，论文用all-mpnet-base-v2。对于医学相关，使用BioLORD。这俩都是预训练模型，使用但不微调。1.使用DSPy框架，动态地分配few-shot给prompt。神奇的是即使是这个阶段，论文也没让7B模型做in-context learning。3.rerank使用gpt，排名靠前的就是更相似的。1.通过7B模型，让文章输出多个术语or关键词。
复制链接

扫一扫

蒸土豆的技术细节 CSDN认证博客专家 CSDN认证企业博客

码龄7年

61: 原创

7万+: 周排名

2万+: 总排名

5万+: 访问

: 等级

1162: 积分

77: 粉丝

87: 获赞

20: 评论

203: 收藏

私信

关注

热门文章

最新评论

奇怪的错误记录
太平洋的矿泉水: 终于在这里找到了完美解决方案
奇怪的错误记录
大数据飞总: 这是一篇高质量的好文，深度理解和清晰的表达方式使复杂的技术概念变得容易理解，值得收藏点赞。博主用心很有耐心，更有对知识的热忱和热爱，写了这么实用有效的分享，期盼博主能够光顾我的博客，给予宝贵的指导！
PathSim和HeteSim的简单记录
CSDN-Ada助手: 非常感谢您分享有关PathSim和HeteSim的知识，这些都是非常有价值的内容。我想鼓励您继续撰写关于图数据挖掘的博客，尤其是关于比较不同算法之间的差异和应用场景的文章。比如，您可以写一篇关于NGBoost和Catboost的对比分析，或者是比较Louvain算法和CNM算法在社区发现方面的应用效果等等。期待您的下一篇博客！ 2023年博客之星「城市赛道」年中评选已开启（https://activity.csdn.net/creatActivity?id=10470&utm_source=blog_comment_city ），博主的原力值在所在城市已经名列前茅，持续创作就有机会成为所在城市的 TOP1 博主（https://bbs.csdn.net/forums/blogstar2023?typeId=3152981&utm_source=blog_comment_city），更有丰厚奖品等你来拿~。
钓鱼网站url的识别
__byb__: 这里有https://www.heywhale.com/mw/project/5e7ac69998d4a8002d2cf7d1/dataset
BallTree结构和答疑
qq_41873505: 您好，请问ball树有效的“高维”能高到什么程度？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。