文章目录
引入
题目:Multi-instance learning based on representative instance and feature mapping
@article{WANG2016790,
title = {Multi-instance learning based on representative instance and feature mapping},
journal = {Neurocomputing},
author = {Xingqi Wang and Dan Wei and Hui Cheng and Jinglong Fang},
volume = {216},
pages = {790-796},
year = {2016}
摘要:在本文中,基于代表性实例和特征映射,我们提出了两种多示例学习(MIL)算法,即实例的代表性实例和特征映射(RIFM-I)和包的代表性实例和特征映射(RIFM-B) )。这两种算法首先分别从正负包中选择具有代表性的正负实例,然后将选择的实例和包映射到特征空间,在特征空间中将MIL问题转化为传统的单实例学习问题。最后,引入支持向量数据描述(SVDD)方法来解决转换问题。在 MUSK 数据集上的实验表明,与所有方法中获得的最佳结果相比,RIFM-I 的性能优于 RIFM-B,并且提供了最高的分类精度,并且 RIFM-B 实现了具有竞争力的平均精度性能。此外,RIFM-I 应用于 COREL 图像存储库,用于基于内容的图像检索。实验结果表明,RIFM-I 优于 MILES 和 MissSVM 等其他图像检索方法,并且能够很好地区分两个容易混淆的类别 Beach 和 Mountains。此外,在 MIL 常用的十个数据集中的结果也表明,RIFM-I 在大多数情况下都能取得更好的结果。
引言
我们提出了两种基于代表性实例特征映射的多示例学习方法。一种是实例级算法,称为RIFM-I; 另一种是包级算法,称为 RIFM-B。 这两种方法都分别从正负包中选择具有代表性的正负实例,然后将代表性实例映射到特征空间。多实例学习问题因此在特征空间中转化为传统的单实例机器学习问题。 之后,SVDD 被应用于解决传统的机器学习问题。
RIFM-I and RIFM-B
Basic definition
Trainging bag set:
{
(
X
1
,
Y
1
)
,
⋯
,
(
X
p
,
Y
p
)
,
(
X
p
+
1
,
Y
p
+
1
)
,
⋯
,
(
X
p
+
q
,
Y
p
+
q
)
}
∈
R
n
\{(X_1,Y_1),\cdots,(X_p,Y_p),(X_{p+1},Y_{p+1}),\cdots,(X_{p+q},Y_{p+q})\} \in R_n
{(X1,Y1),⋯,(Xp,Yp),(Xp+1,Yp+1),⋯,(Xp+q,Yp+q)}∈Rn,其中
Y
1
=
⋯
=
Y
p
=
1
Y_1=\cdots=Y_p=1
Y1=⋯=Yp=1对应的是正包,
Y
p
+
1
=
⋯
=
Y
p
+
q
=
−
1
Y_{p+1}=\cdots=Y_{p+q}=-1
Yp+1=⋯=Yp+q=−1对应的是负包。
Instance set:
{
(
x
1
,
y
1
)
,
⋯
,
(
x
r
,
y
r
)
,
(
x
r
+
1
,
y
r
+
1
)
,
⋯
,
(
x
r
+
s
,
y
r
+
s
)
}
\{(x_1,y_1),\cdots,(x_r,y_r),(x_{r+1},y_{r+1}),\cdots,(x_{r+s},y_{r+s})\}
{(x1,y1),⋯,(xr,yr),(xr+1,yr+1),⋯,(xr+s,yr+s)}
多示例学习问题是找到一个决策函数,表示为
f
(
x
)
f(x)
f(x),以使其能够正确分类实例。对于多示例学习,包
X
^
\hat{X}
X^的标签与实例的标签有以下关系:
Y
^
=
max
i
=
1
,
2
,
.
.
.
,
m
y
^
i
.
\hat{Y}=\max_{i=1,2,...,m}{\hat{y}_i}.
Y^=i=1,2,...,mmaxy^i.因此,多示例学习的问题就是找到一个能够正确分类实例
x
x
x 的决策函数
f
(
x
)
f(x)
f(x)
本文提出的方法,基于代表性实例和特征映射的方法(RIFM),是找到一个决策函数,超球
B
(
c
,
R
)
B(c,R)
B(c,R),它满足以下条件:
1.半径
R
R
R尽可能小;
2.正包中的正实例绑定到超球面上,负包中的所有负实例和正包中的负实例都被排除在外。
优化目标
RIFM-I的优化目标:
min
y
i
min
R
,
c
,
ξ
R
2
+
c
∑
i
=
1
r
+
s
ξ
i
\min_{y_i}\min_{R,c,\xi}{R^2+c\sum_{i=1}^{r+s}{\xi_i}}
yiminR,c,ξminR2+ci=1∑r+sξi
s
.
t
.
y
i
(
R
2
−
∣
∣
ϕ
(
x
i
)
−
c
∣
∣
2
)
≥
−
ξ
i
,
ξ
i
≥
0
,
i
=
1
,
2
,
⋯
,
r
+
s
s.t. y_i(R^2-||\phi(x_i)-c||^2)\geq-\xi_i, \xi_i\geq0, i=1,2,\cdots,r+s
s.t.yi(R2−∣∣ϕ(xi)−c∣∣2)≥−ξi,ξi≥0,i=1,2,⋯,r+s
其中
c
c
c和
R
R
R分别是超球的中心和半径;
ξ
\xi
ξ是容忍误差,
ϕ
\phi
ϕ是特征映射函数。当
i
=
1
,
2
,
⋯
,
p
i=1,2,\cdots,p
i=1,2,⋯,p,
∑
j
∈
I
(
i
)
y
j
+
1
2
≥
1
\sum_{j\in I(i)} {\frac{y_j+1}{2}}\geq1
∑j∈I(i)2yj+1≥1;当
i
=
r
+
1
,
r
+
2
,
⋯
,
r
+
s
i=r+1,r+2,\cdots,r+s
i=r+1,r+2,⋯,r+s,
y
i
=
−
1
y_i=-1
yi=−1。这不是一个凸二次规划问题,因此很难解决。然而,它可以通过迭代解决一系列凸二次规划问题来解决。
c
c
c和
R
R
R,决策函数
f
(
x
)
=
R
2
−
∣
∣
ϕ
(
x
)
−
c
∣
∣
2
f(x)=R^2-||\phi(x)-c||^2
f(x)=R2−∣∣ϕ(x)−c∣∣2的参数可以通过重复训练得到。
RIFM-B
min
R
,
c
,
ξ
R
2
+
c
∑
i
=
1
p
+
q
ξ
i
\min_{R,c,\xi}{R^2+c\sum_{i=1}^{p+q}{\xi_i}}
R,c,ξminR2+ci=1∑p+qξi
s
.
t
.
Y
i
max
j
∈
I
(
i
)
(
R
2
−
∣
∣
ϕ
(
x
j
)
−
c
∣
∣
2
)
≥
−
ξ
i
,
ξ
i
≥
0
,
i
=
1
,
2
,
⋯
,
p
+
q
s.t. Y_i\max_{j\in I(i)}(R^2-||\phi(x_j)-c||^2)\geq-\xi_i, \xi_i\geq0, i=1,2,\cdots,p+q
s.t.Yij∈I(i)max(R2−∣∣ϕ(xj)−c∣∣2)≥−ξi,ξi≥0,i=1,2,⋯,p+q
同理,
c
c
c和
R
R
R,决策函数
f
(
x
)
=
R
2
−
∣
∣
ϕ
(
x
)
−
c
∣
∣
2
f(x)=R^2-||\phi(x)-c||^2
f(x)=R2−∣∣ϕ(x)−c∣∣2的参数也可以通过重复训练得到。
代表实例选择
bb一句,上面的优化目标就是超球的优化目标。
正代表实例选择
定义1:如果 t 是正实例,则实例 x 是正实例的概率定义为:
P
x
,
t
=
P
r
(
l
(
x
)
=
+
1
/
l
(
t
)
=
+
1
)
=
exp
(
−
∣
∣
t
−
x
∣
∣
2
σ
t
2
)
,
P_{x,t}=Pr(l(x)=+1/l(t)=+1)=\exp{(-\frac{||t-x||^2}{\sigma_t^2})},
Px,t=Pr(l(x)=+1/l(t)=+1)=exp(−σt2∣∣t−x∣∣2),其中
l
(
t
)
l(t)
l(t)和
l
(
x
)
l(x)
l(x)分别实实例
t
t
t和
x
x
x的标签,
σ
t
\sigma_t
σt是一个远大于0的参数。
定义2:如果
t
t
t 是一个正实例,那么一个包
X
X
X 是一个正包的概率被定义为:
Pr
(
l
(
X
)
=
+
1
/
l
(
t
)
=
+
1
)
=
max
x
∈
X
P
r
(
l
(
x
)
=
+
1
/
l
(
t
)
=
+
1
)
\Pr(l(X)=+1/l(t)=+1)=\max_{x\in X}{Pr(l(x)=+1/l(t)=+1)}
Pr(l(X)=+1/l(t)=+1)=x∈XmaxPr(l(x)=+1/l(t)=+1)
=
max
x
∈
X
exp
(
−
∣
∣
t
−
x
∣
∣
2
σ
t
2
)
=\max_{x\in X} \exp{(-\frac{||t-x||^2}{\sigma_t^2})}
=x∈Xmaxexp(−σt2∣∣t−x∣∣2)
=
exp
(
−
d
2
(
t
,
X
)
σ
t
2
)
,
=\exp{(-\frac{d^2(t,X)}{\sigma_t^2})},
=exp(−σt2d2(t,X)),其中,
d
(
t
,
X
)
=
min
x
∈
X
∣
∣
t
−
x
∣
∣
d(t,X)=\min_{x\in X}{||t-x||}
d(t,X)=x∈Xmin∣∣t−x∣∣
实例与包之间的距离等于该实例与包中最近的实例之间的距离。
可以证明,如果
t
t
t是一个正例,那么有一个阈值
θ
t
\theta_t
θt 使得下面的决策函数符合贝叶斯决策理论来标记包:
h
θ
t
t
(
X
)
=
{
+
1
d
(
t
,
X
)
≤
θ
t
−
1
o
t
h
e
r
w
i
s
w
(7)
h_{\theta_t}^{t}(X)=\begin{cases} +1& d(t,X)\leq\theta_t\\ -1& otherwisw \end{cases}\tag{7}
hθtt(X)={+1−1d(t,X)≤θtotherwisw(7)
综上所述,如果
t
t
t是一个正实例,则必须有由式 (7) 定义的决策函数对包进行标注,即正包与
t
t
t的距离应小于负包与
t
t
t的距离 . 但是,如果
t
t
t不是正例,我们仍然可以根据 (7) 定义决策函数。但是这个决策函数不能足够正确地标记袋子,这正是我们预测正例的基础。所以在下面的讨论中,没有必要要求
t
t
t是一个正例,它可以是正例,也可以是负例。
定义3:使用式(7)中的决策函数对包
X
i
X_i
Xi进行标注,
i
=
1
,
2
,
⋯
,
p
+
q
i = 1, 2, \cdots, p + q
i=1,2,⋯,p+q,其准确率定义为:
P
t
(
θ
t
)
=
1
p
+
q
∑
1
p
+
q
1
+
h
θ
t
t
(
X
i
)
l
(
X
i
)
2
P_t(\theta_t)=\frac{1}{p+q}\sum_{1}^{p+q}{\frac{1+h_{\theta_t}^{t}(X_i)l(X_i)}{2}}
Pt(θt)=p+q11∑p+q21+hθtt(Xi)l(Xi),其中
l
(
X
i
)
l(X_i)
l(Xi)是包的标签
为了找到最佳参数
θ
t
\theta_t
θt,需要最大化其准确率
θ
t
∗
=
arg
max
θ
t
P
t
(
θ
t
)
\theta_t^*=\arg\max_{\theta_t}{P_t(\theta_t)}
θt∗=argθtmaxPt(θt)
此时,最佳标注精度为
P
∗
(
t
)
=
max
θ
t
P
t
(
θ
t
)
(10)
P^*(t)=\max_{\theta_t}{P_t(\theta_t)}\tag{10}
P∗(t)=θtmaxPt(θt)(10)
本质上,
P
∗
(
t
)
P^*(t)
P∗(t)反映了使用实例
t
t
t 来标记袋子的能力。
P
∗
(
t
)
P^*(t)
P∗(t) 的值越大,越有可能是正例。
不难证明,对于
{
d
(
t
,
X
i
)
∣
i
=
1
,
2
,
⋯
,
p
}
\{d (t, Xi )|i = 1, 2, \cdots, p\}
{d(t,Xi)∣i=1,2,⋯,p} 集合中的
θ
t
\theta_t
θt 可以实现最佳精度
P
∗
(
t
)
P^*(t)
P∗(t)。 只需要计算
t
t
t 到每个正包的距离,不需要太多的计算成本。
此外,我们可以使用以下方法来预测正包中的正实例。 对于每个正包中的每个实例,使用公式(10)计算
P
∗
(
x
j
)
,
j
=
1
,
2
,
⋯
r
P^*(x_j ),j = 1, 2,⋯r
P∗(xj),j=1,2,⋯r。 每个正包中具有最大
P
∗
(
x
)
P^*(x)
P∗(x) 的实例表示为
t
i
+
=
arg
max
x
∈
X
i
P
∗
(
x
)
t_i^+=\arg\max_{x\in X_i}{P^*(x)}
ti+=argx∈XimaxP∗(x)
实际上,没有必要从每个正包中只选择一个代表实例。 我们使用另一种策略,即对于正包中的每个实例,由公式(10)计算的
P
∗
(
x
j
)
,
j
=
1
,
2
,
⋯
,
r
P*(xj ), j = 1, 2, \cdots, r
P∗(xj),j=1,2,⋯,r是按降序排序的,前面的 m 个实例形成一个正实例集,
T
+
=
{
t
i
+
∣
i
=
1
,
2
,
⋯
,
m
}
T^+= \{t_i^ +|i = 1, 2, \cdots, m\}
T+={ti+∣i=1,2,⋯,m}。
负代表实例选择
同样,我们可以为每个负包选择一组具有代表性的负实例。我们不仅限于选择一个具有代表性的负面实例。负包中每个实例 x j x_j xj 的最佳精度可以通过 Q ∗ ( x j ) = min t + ∈ T + ∣ ∣ x j − t + ∣ ∣ , j = r + 1 , r + 2 , ⋯ , r + s Q^*(x_j )= \min_{t^+ \in T^+}{||x_j − t^+||}, j = r + 1, r + 2, \cdots, r + s Q∗(xj)=t+∈T+min∣∣xj−t+∣∣,j=r+1,r+2,⋯,r+s计算。然后对 Q ∗ ( x j ) Q^*(x_j ) Q∗(xj)进行升序排序,取前面的n个实例组成一个负实例集, T − = { t i − ∣ i = 1 , 2 , ⋯ , n } T^− = \{t_i^−|i = 1, 2, \cdots, n\} T−={ti−∣i=1,2,⋯,n}
特征映射
实例级别特征映射
ψ
(
t
i
+
)
=
[
d
(
t
i
+
,
X
1
)
,
d
(
t
i
+
,
X
2
)
,
⋯
,
d
(
t
i
+
,
X
p
+
q
)
]
,
i
=
1
,
2
,
⋯
,
m
\psi(t_i^+)=[d(t_i^+,X_1),d(t_i^+,X_2),\cdots,d(t_i^+,X_{p+q})],i=1,2,\cdots,m
ψ(ti+)=[d(ti+,X1),d(ti+,X2),⋯,d(ti+,Xp+q)],i=1,2,⋯,m
ψ
(
t
j
−
)
=
[
d
(
t
j
−
,
X
1
)
,
d
(
t
j
−
,
X
2
)
,
⋯
,
d
(
t
j
−
,
X
p
+
q
)
]
,
i
=
1
,
2
,
⋯
,
n
\psi(t_j^-)=[d(t_j^-,X_1),d(t_j^-,X_2),\cdots,d(t_j^-,X_{p+q})],i=1,2,\cdots,n
ψ(tj−)=[d(tj−,X1),d(tj−,X2),⋯,d(tj−,Xp+q)],i=1,2,⋯,n
The RIFM-I training set
I
D
=
{
ψ
(
t
1
+
)
,
ψ
(
t
2
+
)
,
⋯
,
ψ
(
t
p
+
)
,
ψ
(
t
1
−
)
ψ
(
t
2
−
)
,
⋯
,
ψ
(
t
q
+
)
}
ID=\{\psi(t_1^+),\psi(t_2^+),\cdots,\psi(t_p^+),\psi(t_1^-)\psi(t_2^-),\cdots,\psi(t_q^+)\}
ID={ψ(t1+),ψ(t2+),⋯,ψ(tp+),ψ(t1−)ψ(t2−),⋯,ψ(tq+)}
包级别特征映射:
μ
(
X
i
)
=
[
d
(
X
i
,
t
1
+
)
,
d
(
X
i
,
t
2
+
)
,
⋯
,
d
(
X
i
,
t
m
+
)
]
\mu(X_i)=[d(X_i,t_1^+),d(X_i,t_2^+),\cdots,d(X_i,t_m^+)]
μ(Xi)=[d(Xi,t1+),d(Xi,t2+),⋯,d(Xi,tm+)]
The RIFM-B training set
B
D
=
μ
(
X
1
)
,
μ
(
X
2
)
,
⋯
,
μ
(
X
p
+
q
)
BD=\mu(X_1),\mu(X_2),\cdots,\mu(X_{p+q})
BD=μ(X1),μ(X2),⋯,μ(Xp+q)
实验结果