无监督分类

最新推荐文章于 2024-07-16 23:00:00 发布

weixin_42001089

最新推荐文章于 2024-07-16 23:00:00 发布

阅读量3.5k

点赞数 1

分类专栏：调研算法文章标签：无监督文本分类 bert

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42001089/article/details/113731730

版权

算法同时被 2 个专栏收录

56 篇文章 2 订阅

订阅专栏

16 篇文章 2 订阅

订阅专栏

目录

标签名称替换

前言：

在训练模型的时候，比如分类任务等等，都需要有标签数据进行监督学习，即使是要少量的标签数据，也可采用半监督的方式来提高模型的泛化性，关于一些最新的半监督学习可以参看笔者另一篇博客：

《半监督小样本数据学习》：半监督之数据增强_爱吃火锅的博客-CSDN博客

但是今天要分享的这篇论文是EMNLP20论文《Text Classification Using Label Names Only: A Language Model Self-Training Approach》简称LOTClass，脑洞大开，不需要标签数据，一个都不需要就可以进行分类任务。

论文：https://arxiv.org/pdf/2010.07245.pdf

代码：GitHub - yumeng5/LOTClass: [EMNLP 2020] Text Classification Using Label Names Only: A Language Model Self-Training Approach

关于这方面解读，已经有很多博客了，可以看看，笔者这里不在过多介绍，直接看下面博客就可以啦，下面贴一下论文中关键步骤的结果展示，最后说一下全程看下来的一个感受。

解读博客：韩家炜课题组重磅发文：文本分类只需标签名称，不需要任何标注数据！ - 知乎

主要由三部分构成

标签名称替换

通过初始化的少量标签名称，用Bert等预训练模型找出每一个标签名称的一批候选名称，进而得到每一个类的候选词表。

类别预测

遍历每个词汇，预测取其top50，然后和每个类别下的词表对比，重合超过20的就认为该词汇属于该类别，即词汇打标相当于，基于这步获得词汇和词汇标签进行MLM任务预训练模型，即论文中的MCP任务

自训练

第二步中，仍然有很多样本没有被利用上，即不是每个句子都有词汇可以被打标的，且没有用cls整个语义这个信息，所以这里加了一个自训练方法。

总结

其实就结果来看，并不是多实用，为什么呢？

（1）首先这并不是完全意义的无监督，一开始要为每一个类别初始化几个标签名称，这个实打实的人为定义吧，而且这个至关重要，直接影响后面整个过程。论文中并没有说这个怎么解决，而且论文中也对比了LOTClass效果相当于每个类别使用48个标注文档的有监督BERT模型，48个说实话也不是很多，一两天怎么也打标完了吧，而且是实实在在的正负样本有监督，多准确！

（2）这个是在英文上面，中文上面每一个字是一个Token，我们是不是得按词来？效果如何，不得而知。

所以总的来说实用性不是很好，自我感觉，不过脑洞确实大，但是值得我们学习的是一个同义词替换方法 , 即可以利用bert等预训练模型来进行上下文语义的同义词替换。

(3)另外还有最近一个火起来的类似思路：prefix/prompt（提示）

P-tuning：自动构建模版，释放语言模型潜能 - 科学空间|Scientific Spaces

看到很多小伙伴私信和关注，为了不迷路，欢迎大家关注笔者的微信公众号，会定期发一些关于NLP的干活总结和实践心得，当然别的方向也会发，一起学习：

weixin_42001089

关注

1
点赞
踩
15

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。