原文处理了多示例学习中的分类问题
目前为止,有主要两种方法来解决多示例预测的问题。
方法一:修改监督学习器,使其适应多示例的特征向量表示的方式。
方法 二:转换表示。即将二维的包
b
a
g
bag
bag转换一维的示例
i
n
s
t
a
n
c
e
instance
instance
本文的符号系统:
符号 | 含义 |
---|---|
X = R d \mathcal{X}=\mathbb{R}^{d} X=Rd | 示例空间 |
Y = { 0 , 1 } \mathcal{Y}=\{0,1\} Y={0,1} | 标签空间 |
B t r = { ( X i t r , y i ) } i = 1 m \mathcal{B}_{tr}=\{(X_{i}^{tr},y_{i})\}_{i=1}^{m} Btr={(Xitr,yi)}i=1m | 数据集 |
X i = { x i 1 , ⋯ , x i j , ⋯ , x i n i } X_{i}=\{x_{i1},\cdots,x_{ij},\cdots,x_{in_i}\} Xi={xi1,⋯,xij,⋯,xini} | 包 |
D \mathcal{D} D | 训练集 |
B + ( B − ) \mathcal{B^{+}(B^{-})} B+(B−) | 正包(负包)的集合 |
m + ( m − ) m^{+}(m^{-}) m+(m−) | 正包(负包)的数量 |
ϕ ( X i ) \phi(X_{i}) ϕ(Xi) | 包的假设标签 |
A \mathcal{A} A | 用于辅助的“裁判”多示例算法 |
A A A | “裁判”多示例算法训练后返回的分类器 |
X i − X_{i}^{-} Xi− | 负包 i i i |
X i x = x ∪ X i − X_{i}^{x}=x\cup X_{i}^{-} Xix=x∪Xi−,for i = 1 , ⋯ , m − i=1,\cdots,m^{-} i=1,⋯,m− | 被关注示例治疗后的负包 |
A ( X i x ) A(X_{i}^{x}) A(Xix) | 被治疗后的负包经分类器 A A A预测后的预测值 |
s s s | 关注示例的“治疗效果”, s s s值越大表示治疗效果越好,越可能是正示例 |
本文提出了一个包中的三种示例的概念:
- 因果示例:
如果一个示例加入一个负包中,让这个负包的标签转为正,则这个示例为因果示例-------(其实就是正示例,对应图片中的狗) - 噪声示例:
单来说就是那些在训练是容易会被误以为是正示例的负示例,比如说草,雪之类的 - 负示例:
与包标签显著不相关的示例即显然为负的示例 ------(随机背景)
本算法的提出基于标准的多示例假设
1、负包中的示例全为负示例
2、正包中既有正示例也有负示例
所以是正包中的正示例影响了整个包的标签,因为为了选出正包中的代表示例,也就是这些正示例,我们讲正包中的示例,一个个放到负包中。然后使用“裁判” A A A预测这个新的包,判断它的标签。
本文将这种行为称之为治疗:
治疗:将一个示例添加到负包中
若添加后包的标签改变—>治疗有效—>添加的示例为正示例
若添加后包的标签不改变—>治疗无效—>添加的示例为负示例
本文的创新之处就在于,借助了一个另外的多实例分类器作为“裁判”,来判
断示例的“治疗效果”,当治疗效果大于
τ
\tau
τ,则将其作为代表示例。
将代表示例放入正示例池中
举个更加形象的例子: 若一个小区中有人感染了新冠,那么这个小区就是危险的(正包) 若一个小区中无任何人感染,那么这个小区就是安全的(负包)
本文中的“治疗”操作,其实可以叫做“感染”更便于理解。
现在有一个人,我们无法确定他是否感染了新冠,把这个人放进一个安全的小区里,然后这个小区变成了危险小区,就说明这个人是新冠感染者
若这个小区没有变成危险小区,就说明这个人不是新冠感染者。
映射函数:
d
(
X
i
,
x
)
=
max
x
i
j
∈
X
i
exp
(
−
λ
∣
∣
x
i
j
−
x
∣
∣
2
)
d(X_{i},x)=\max\limits_{x_{ij}\in X_{i}} \exp (-\lambda||x_{ij}-x||^{2})
d(Xi,x)=xij∈Ximaxexp(−λ∣∣xij−x∣∣2)
z
i
=
[
d
(
X
i
,
x
1
)
,
⋯
,
d
(
X
i
,
x
j
)
,
⋯
,
d
(
X
i
,
x
q
)
]
z_i=[d(X_i,x_1),\cdots,d(X_i,x_j),\cdots,d(X_i,x_q)]
zi=[d(Xi,x1),⋯,d(Xi,xj),⋯,d(Xi,xq)]where
x
j
∈
C
x_j \in\mathcal{C}
xj∈C and
q
q
q is the cardinality of set
C
\mathcal{C}
C
公式分析:
d
(
X
i
,
x
)
d(X_{i},x)
d(Xi,x) 表示包和示例之间的距离
λ
\lambda
λ 表示缩放参数,可通过局部缩放自动选择
∣
∣
x
i
j
−
x
∣
∣
||x_{ij}-x||
∣∣xij−x∣∣ 表示两个示例之间的欧式距离
z
i
z_i
zi 表示包映射成的向量