多示例论文阅读-2020Robust Multi-Instance Learning with Stable Instances

原文处理了多示例学习中的分类问题

目前为止,有主要两种方法来解决多示例预测的问题。
方法一:修改监督学习器,使其适应多示例的特征向量表示的方式。
方法 二:转换表示。即将二维的包 b a g bag bag转换一维的示例 i n s t a n c e instance instance

本文的符号系统:

符号含义
X = R d \mathcal{X}=\mathbb{R}^{d} X=Rd示例空间
Y = { 0 , 1 } \mathcal{Y}=\{0,1\} Y={0,1}标签空间
B t r = { ( X i t r , y i ) } i = 1 m \mathcal{B}_{tr}=\{(X_{i}^{tr},y_{i})\}_{i=1}^{m} Btr={(Xitr,yi)}i=1m数据集
X i = { x i 1 , ⋯   , x i j , ⋯   , x i n i } X_{i}=\{x_{i1},\cdots,x_{ij},\cdots,x_{in_i}\} Xi={xi1,,xij,,xini}
D \mathcal{D} D训练集
B + ( B − ) \mathcal{B^{+}(B^{-})} B+(B)正包(负包)的集合
m + ( m − ) m^{+}(m^{-}) m+(m)正包(负包)的数量
ϕ ( X i ) \phi(X_{i}) ϕ(Xi)包的假设标签
A \mathcal{A} A用于辅助的“裁判”多示例算法
A A A“裁判”多示例算法训练后返回的分类器
X i − X_{i}^{-} Xi负包 i i i
X i x = x ∪ X i − X_{i}^{x}=x\cup X_{i}^{-} Xix=xXi,for i = 1 , ⋯   , m − i=1,\cdots,m^{-} i=1,,m被关注示例治疗后的负包
A ( X i x ) A(X_{i}^{x}) A(Xix)被治疗后的负包经分类器 A A A预测后的预测值
s s s关注示例的“治疗效果”, s s s值越大表示治疗效果越好,越可能是正示例

本文提出了一个包中的三种示例的概念:

  • 因果示例:
    如果一个示例加入一个负包中,让这个负包的标签转为正,则这个示例为因果示例-------(其实就是正示例,对应图片中的狗)
  • 噪声示例:
    单来说就是那些在训练是容易会被误以为是正示例的负示例,比如说草,雪之类的
  • 负示例:
    与包标签显著不相关的示例即显然为负的示例 ------(随机背景)

本算法的提出基于标准的多示例假设
1、负包中的示例全为负示例
2、正包中既有正示例也有负示例

所以是正包中的正示例影响了整个包的标签,因为为了选出正包中的代表示例,也就是这些正示例,我们讲正包中的示例,一个个放到负包中。然后使用“裁判” A A A预测这个新的包,判断它的标签。

本文将这种行为称之为治疗
治疗:将一个示例添加到负包中
若添加后包的标签改变—>治疗有效—>添加的示例为正示例
若添加后包的标签不改变—>治疗无效—>添加的示例为负示例

本文的创新之处就在于,借助了一个另外的多实例分类器作为“裁判”,来判
断示例的“治疗效果”,当治疗效果大于 τ \tau τ,则将其作为代表示例。

将代表示例放入正示例池

举个更加形象的例子: 若一个小区中有人感染了新冠,那么这个小区就是危险的(正包) 若一个小区中无任何人感染,那么这个小区就是安全的(负包)
本文中的“治疗”操作,其实可以叫做“感染”更便于理解。
现在有一个人,我们无法确定他是否感染了新冠,把这个人放进一个安全的小区里,然后这个小区变成了危险小区,就说明这个人是新冠感染者
若这个小区没有变成危险小区,就说明这个人不是新冠感染者。

映射函数:

d ( X i , x ) = max ⁡ x i j ∈ X i exp ⁡ ( − λ ∣ ∣ x i j − x ∣ ∣ 2 ) d(X_{i},x)=\max\limits_{x_{ij}\in X_{i}} \exp (-\lambda||x_{ij}-x||^{2}) d(Xi,x)=xijXimaxexp(λxijx2)
z i = [ d ( X i , x 1 ) , ⋯   , d ( X i , x j ) , ⋯   , d ( X i , x q ) ] z_i=[d(X_i,x_1),\cdots,d(X_i,x_j),\cdots,d(X_i,x_q)] zi=[d(Xi,x1),,d(Xi,xj),,d(Xi,xq)]where x j ∈ C x_j \in\mathcal{C} xjC and q q q is the cardinality of set C \mathcal{C} C

公式分析:
d ( X i , x ) d(X_{i},x) d(Xi,x) 表示包和示例之间的距离
λ \lambda λ 表示缩放参数,可通过局部缩放自动选择
∣ ∣ x i j − x ∣ ∣ ||x_{ij}-x|| xijx 表示两个示例之间的欧式距离
z i z_i zi 表示包映射成的向量

代码复现戳这里

自动增益控制(Automatic Gain Control,简称AGC)和多样式训练(Multi-Style Training)对于稳健小体积的有着重要意义。 首先,自动增益控制(AGC)是一种技术,可以自动调整信号的增益,以确保信号在传输过程中保持适当的强度。在语音识别和音频处理中,AGC可以有效地处理各种输入信号的音量差异,使其更适合于后续的处理过程。通过调整增益,AGC可以提高信号质量、减少噪音干扰,从而使得小体积系统更加稳健。 其次,多样式训练(Multi-Style Training)是一种训练方法,通过使用大量不同风格和语调的语音样本来增强语音识别系统的鲁棒性。传统的语音识别系统通常只在标准风格的语音上进行训练,导致在其他风格的语音输入时识别率下降。而采用多样式训练方法,系统可以学习到更广泛的语音样式,使得在各种语音输入情况下都能取得较好的识别效果。对于小体积的系统来说,多样式训练可以提高系统的鲁棒性,减少输入多样性带来的挑战。 综上所述,自动增益控制和多样式训练对于稳健小体积系统的重要性体现在它们能够提高信号质量、减少噪音干扰,并且增加系统对各种不同语音风格的适应能力。这些技术的应用可以使得小体积系统在不同环境和语音输入情况下都能取得较好的效果,提高用户体验和系统的实用性。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值