自适应决策边界分类

目录

前言

背景

方法

思考


前言

有的时候,我们有一个任务是m分类,但是呢并不是所有的样本一定属于这m类中的某一类,我们暂且把这部分样本称为噪声吧,所以我们的任务就是不但要对当前样本进行正确分类,且当它是噪声的时候我们还要检验出来,怎么做呢,一般是有两种想法:

(1)设定概率阈值,将最大分类置信度低于阈值的样本看作噪声;

(2)结合m类样本几何特征通过决策边界或者分布密度将噪声分离出来。

今天偶然刷到一篇论文就是基于第(2)种思路来进行的《Deep Open Intent Classification with Adaptive Decision Boundary

论文: https://arxiv.org/pdf/2012.10209.pdf

代码:https://github.com/thuiar/Adaptive-Decision-Boundary

已经有相关中文解读了,可以直接看

清华提出自适应决策边界用于开放意图分类 | AAAI 2021

这里简单罗列一下主要的核心解读部分

最后说一下思考。

背景

关于这一任务就像前言说的已经有工作做了,比如

基于概率值的方法

[1] Bendale, A.; and Boult, T. E. 2016. Towards open set deep networks. CVPR.

[2] Shu, L.; Xu, H.; and Liu, B. 2017. DOC: Deep Open Classification of Text Documents. EMNLP.

[3] Hendrycks, D.; and Gimpel, K. 2017. A Baseline for Detecting Misclassified and Out-of-Distribution Examples in Neural Networks. ICLR.

基于边界或者分布密度

[4] Lin, T.-E.; and Xu, H. 2019. Deep Unknown Intent Detection with Margin Loss. ACL.

[5] Yan, G.; Fan, L.; Li, Q.; Liu, H.; Zhang, X.; Wu, X.-M.; and Lam, A. Y. 2020. Unknown Intent Detection Using Gaussian Mixture Model with an Application to Zero-shot Intent Classification. ACL.

然而,现有方法主要存在以下两个问题:

(1) 大多方法需要利用开放类样本进行训练或调参,但是在我们的任务中,训练阶段只存在已知类意图,无法获取这部分开放类样本。

(2) 开放域样本决策条件(概率阈值和决策边界)往往是通过复杂的人工调参和经验筛选得到的,对结果影响较大且不稳定。

方法

论文中的方法是,先看其假设的大前提图

每一个类假设在空间上都是球状分布。

定义球状决策边界,需要确定中心和半径。针对每个已知类,我们将相同标签的样本集合作为一簇,通过计算每一簇的平均特征向量确定簇中心,这里的特征向量就是bert的向量,所以中心是不需要学习的

针对每一类簇,我们希望通过模型学习到合适的半径,进而确定其决策边界。我们通过神经网络初始化半径参数,为了保证半径可微,我们利用SoftPlus激活函数作为半径与半径参数之间的映射。

SoftPlus激活函数作为半径有以下优点:

(1) 具有ReLU函数线性性质(在自变量大约超过2之后)

(2) 在整个实数范围内半径均为正值且可微

(3) 半径取值可扩展到无穷。半径定义如下:

由于训练阶段没有异常样本,我们结合已知意图特征分布学习决策边界。正如3.2节所提到的,学习决策边界需要同时平衡经验风险和开放空间风险,即,一方面希望决策边界能够包围大部分已知意图,过于紧凑会导致已知类识别性能下降、引入较多的经验风险; 另一方面希望决策边界距离簇中心不能太远,过于宽松会导致开放意图落入已知范围内、引入较多的开放空间风险。因此,我们提出了如下边界损失函数:

边界目标损失函数直观的物理意义在于,对于同一类的全部样本,计算其特征表示距离对应决策边界的欧式距离,将其作为目标损失。当位于球形决策边界内部的损失比外部大时,累计梯度为正,决策边界向内靠拢; 同理,当位于决策边界外部的意图特征带来的损失更大,累计梯度为负,决策边界向外扩张,从而实现决策边界自适应学习。

在学习到每一类已知意图的簇中心与决策边界半径之后,我们计算当前意图与全部簇中心的距离,当距离大于全部决策区域半径(落在所有球形决策边界之外),判断为开放类意图;否则识别成距离最近的簇中心对应的意图。表达式如下:

思考

(1)最最重要的idea就是那个上述红字的决策边界学习中loss的设计,很是巧妙有没有,点赞。

(2)弊端就是论文假设是球状,假设真实不是球状呢?是不是效果就会下降,这个是不是也是优化的一点呢?

(3)假设我有一个场景就是我有一堆样本,我也不知道里面究竟有多少类,而且里面有噪声,我既想让正样本正确的分类,又想检测出噪声,当然了这个场景本身更难了,这个可能得先聚类确定一下正样本类别数,但是用聚类算法噪声也会一起参与聚类,这个时候怎么办?

都是可以发挥想象的点,但总的来说,学习完这篇论文我们为作者的Loss设计点赞。

欢迎关注笔者微信公众号,会有更多前沿paper和代码解读和想法分享~


​​​​​​​

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值