新类识别/领域自适应-聚类

前言

 

这块应用在实际业务中非常常见,比如新意图识别等等,不管具体任务是什么,本质上就是在做一个事:给样本分类,但是又没有标签数据。

一般来说就是通过聚类来完成,使用的feature多种多样,比如现在大火的预训练模型,关于这块的研究其实也有不少,也有很多trick,但是网上很少有这块的总结,这里就列举一些该领域的一些近期paper,供提供思路。

同时这里也会吧领域自适应加进来一起看。

CDAC+

论文:https://ojs.aaai.org/index.php/AAAI/article/view/6353

论文源码:https://github.com/thuiar/CDAC-plus

解读:https://mp.weixin.qq.com/s/wHKWvP_qzyOyXPHXCHEmBQ

主要创新点就是构建相似矩阵,这里没有kmeans聚类

DeepAligned

论文链接: https://arxiv.org/pdf/2012.08987.pdf

代码链接: https://github.com/thuiar/DeepAligned-Clustering

解读:AAAI 2021 | 清华提出深度对齐聚类用于新意图发现_监督

该篇文章和上篇出自一个实验室,效果相比于上篇更好,主要创新点就是聚类和伪标签多轮学习。

这里多说一句,根据笔者实践,多轮是可能带来一些收益的,但是预训练更关键,即第一阶段的预训练非常关键,应该尽可能挖掘一些样本对来预训练模型,这对第一次聚类至关重要,如果第一轮都聚不好,那后面就不会好到哪里!关于怎么挖掘,怎么设计loss, 这里不展开讲了,感兴趣的可以提问,一起探讨。

sccl:

论文:https://arxiv.org/abs/2103.12953

代码:https://github.com/amazon-research/sccl

解读:https://mp.weixin.qq.com/s/tY_ZJyvEAXpEdnd5VlBO7g

主要创新思路就是将近期的对比学习应用到聚类,这里聚类没有kmeans,而是使用的深度学习的,是联合训练的。

UNO

论文:https://arxiv.org/abs/2108.08536

项目:https://ncd-uno.github.io

代码:https://github.com/DonkeyShot21/UNO

解读:ICCV 2021 Oral | 新类别发现(Novel Class Discovery)的统一目标

这篇虽然是解决图片的,但是做nlp时可以借鉴,主要创新点就是采用了 concat 方法以及多头聚类和过度聚类等等。这里聚类也没有kmeans,而是使用的深度学习的,是联合训练的。

Adaptive-Decision-Boundary

论文链接: https://arxiv.org/pdf/2012.10209.pdf

代码链接:https://github.com/thuiar/Adaptive-Decision-Boundary

解读:清华提出自适应决策边界用于开放意图分类 | AAAI 2021

主要创新点就是:自适应边界的定义

SFDA

Generalized Source-free Domain Adaptation

论文:https://arxiv.org/abs/2108.01614

代码:https://github.com/Albert0147/G-SFDA

解读:ICCV 2021 | G-SFDA:无需源数据的领域自适应方法

主要就是:领域自适应

从近年顶会论文看领域自适应(Domain Adaptation)最新研究进展

总结

当前结合深度模型来进行联合学习类别越来越效果,但是该领域一直有一个难题没有被很好的解决,那就是未知类别数的确定,大部分模型都恰恰需要预设一个簇个数,上面大部分都没有提及这一点,即使提及了也没有很好的解决,虽然像kmeans的手肘法等等可以解决一下,但是没有很好的解决,期待这一块可以有很好的突破!!!

笔者公众号:


​​​​​​​

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值