多标签中长尾问题/训练数据不足的问题

最新推荐文章于 2024-06-24 09:40:59 发布

yanglee0

最新推荐文章于 2024-06-24 09:40:59 发布

阅读量1k

点赞数 1

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38147421/article/details/119603158

版权

深度学习专栏收录该内容

29 篇文章

订阅专栏

长尾问题算法和数据两个方案：大量标签（超过100个，1000个那种）的项目中会出现。

数据上：直接把长尾标签对应的样本提升上去。
算法角度上：尽可能的利用本身现有信息。可以利用层级信息辅助多标签的预测。或者利用标签之间的语义关系这些信息，去预测标签。

训练数据不足：

（1）数据增强的手段：

图片：翻转，滤波器。
文本：
– 常规增强：随意删除某一字，调整字的顺序，同义词替换，随机替换（增强它的鲁棒性）。
– 生成的算法：比如和GBT模型做些文本生成任务。

（2）可以先引入预训练模型，或者自己先预训练模型。

（3）其实上述做法提升是有限的，但是每次做的是一个业务，其实真正提升的还是对业务理解，从而补充的数据。包括数据补充也可以和其他BU进行沟通，看看可否更多的补充进去数据。

关于预训练的一些疑问的点：
bert用的无监督文本。数据是无监督的，但是通过无监督的数据构造有监督的任务。就是mask的任务，相当于预测mask。比如有2000多个词表，就变成一个2000多类的一个多分类的任务。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。