无监督分类

目录

前言:

标签名称替换

类别预测

自训练

总结


前言:

在训练模型的时候,比如分类任务等等,都需要有标签数据进行监督学习,即使是要少量的标签数据,也可采用半监督的方式来提高模型的泛化性,关于一些最新的半监督学习可以参看笔者另一篇博客:

《半监督小样本数据学习》:半监督之数据增强_爱吃火锅的博客-CSDN博客

但是今天要分享的这篇论文是EMNLP20论文《Text Classification Using Label Names Only: A Language Model Self-Training Approach》简称LOTClass,脑洞大开,不需要标签数据,一个都不需要就可以进行分类任务。

论文:https://arxiv.org/pdf/2010.07245.pdf

代码:GitHub - yumeng5/LOTClass: [EMNLP 2020] Text Classification Using Label Names Only: A Language Model Self-Training Approach

关于这方面解读,已经有很多博客了,可以看看,笔者这里不在过多介绍,直接看下面博客就可以啦,下面贴一下论文中关键步骤的结果展示,最后说一下全程看下来的一个感受。

解读博客:韩家炜课题组重磅发文:文本分类只需标签名称,不需要任何标注数据! - 知乎

主要由三部分构成

标签名称替换

通过初始化的少量标签名称,用Bert等预训练模型找出每一个标签名称的一批候选名称,进而得到每一个类的候选词表。

类别预测

遍历每个词汇,预测取其top50,然后和每个类别下的词表对比,重合超过20的就认为该词汇属于该类别,即词汇打标相当于,基于这步获得词汇和词汇标签进行MLM任务预训练模型,即论文中的MCP任务

自训练

第二步中,仍然有很多样本没有被利用上,即不是每个句子都有词汇可以被打标的,且没有用cls整个语义这个信息,所以这里加了一个自训练方法。

总结

其实就结果来看,并不是多实用,为什么呢?

(1)首先这并不是完全意义的无监督,一开始要为每一个类别初始化几个标签名称,这个实打实的人为定义吧,而且这个至关重要,直接影响后面整个过程。论文中并没有说这个怎么解决,而且论文中也对比了LOTClass效果相当于 每个类别使用48个标注文档的有监督BERT模型,48个说实话也不是很多,一两天怎么也打标完了吧,而且是实实在在的正负样本有监督,多准确!

(2)这个是在英文上面,中文上面每一个字是一个Token,我们是不是得按词来?效果如何,不得而知。

所以总的来说实用性不是很好,自我感觉,不过脑洞确实大,但是值得我们学习的是一个同义词替换方法 , 即可以利用bert等预训练模型来进行上下文语义的同义词替换。

(3)另外还有最近一个火起来的类似思路:prefix/prompt(提示)

P-tuning:自动构建模版,释放语言模型潜能 - 科学空间|Scientific Spaces

看到很多小伙伴私信和关注,为了不迷路,欢迎大家关注笔者的微信公众号,会定期发一些关于NLP的干活总结和实践心得,当然别的方向也会发,一起学习:


​​​​​​​

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值