目录
Multi-instance multi-label learning with application to scene classification.
Z.-H. Zhou and M.-L. Zhang. Multi-instance multi-label learning with application to scene classification. In: Advances in Neural Information Processing Systems 19 (NIPS’06) (Vancouver, Canada), B. Schölkopf, J. C. Platt, and T. Hofmann, eds. Cambridge, MA: MIT Press, 2007, pp.1609-1616.
传统的监督学习
- 对象由实例(或特征向量)表示并与类标签关联。
- χ \chi χ:实例空间(或特征空间), γ \gamma γ:类标签的集合。
- 从给定的数据集 { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) } \left \{ ({x_1,y_1}),({x_2,y_2}),...,({x_m,y_m}) \right \} {(x1,y1),(x2,y2),...,(xm,ym)}中学习一个函数: f : χ → γ f:\chi \rightarrow \gamma f:χ→γ。
- 其中 x 1 ∈ χ x_1\in \chi x1∈χ是一个实例, y 1 ∈ γ y_1\in \gamma y1∈γ是 x 1 x_1 x1的已知标记。
多实例多标签学习(MIML)
- 一个训练示例由多个实例描述,并与多个类标签关联。
- χ \chi χ:实例空间, γ \gamma γ:类标签的集合。
- 从给定的数据集 { ( X 1 , Y 1 ) , ( X 2 , Y 2 ) , . . . , ( X m , Y m ) } \left \{ ({X_1,Y_1}),({X_2,Y_2}),...,({X_m,Y_m}) \right \} {(X1,Y1),(X2,Y2),...,(Xm,Ym)}中学习一个函数: f M I M L : 2 χ → 2 γ f_{MIML}:2^\chi→2^\gamma fMIML:2χ→2γ。
- 其中 X i ⊆ χ X_i\subseteq \chi Xi⊆χ是一个集合实例 { x 1 ( i ) , x 2 ( i ) , . . . , x n i ( i ) } , x j ( i ) ∈ χ ( j = 1 , 2 , . . . , n i ) \left \{x _{1}^{(i)},x _{2}^{(i)},...,x _{n_{i}}^{(i)} \right \},x_{j}^{(i)}\in \chi (j=1,2,...,n_{i}) {x1(i),x2(i),...,xni(i)},xj(i)∈χ(j=1,2,...,ni), Y i ⊆ γ Y_i\subseteq \gamma Yi⊆γ是一组标签 { y 1 ( i ) , y 2 ( i ) , . . . , y l i ( i ) } , y k ( i ) ∈ γ ( k = 1 , 2 , . . . , l i ) \left \{y _{1}^{(i)},y _{2}^{(i)},...,y _{l_{i}}^{(i)} \right \},y_{k}^{(i)}\in \gamma(k=1,2,...,l_{i}) {y1(i),y2(i),...,yli(i)},yk(i)∈γ(k=1,2,...,li)。
- 这里用 n i n_i ni表示实例数 χ i \chi_i χi,用 l i l_i li表示标签数 Y i Y_i Yi。
多实例学习(MIL)
- 研究了由多个实例描述的真实对象与一个类标签相关联的问题。
- 从给定的数据集 { ( X 1 , y 1 ) , ( X 2 , y 2 ) , . . . , ( X m , y m ) } \left \{ ({X_1,y_1}),({X_2,y_2}),...,({X_m,y_m}) \right \} {(X1,y1),(X2,y2),...,(Xm,ym)}中学习函数: f M I L : 2 χ → { − 1 , + 1 } f_{MIL}:2^\chi \rightarrow \left \{ -1,+1 \right \} fMIL:2χ→{−1,+1}。
- 其中 X i ⊆ χ X _i\subseteq \chi Xi⊆χ是一组实例 { x 1 ( i ) , x 2 ( i ) , . . . , x n i ( i ) } , x j ( i ) ∈ χ ( j = 1 , 2 , . . . , n i ) \left \{x _{1}^{(i)},x _{2}^{(i)},...,x _{n_{i}}^{(i)} \right \},x_{j}^{(i)}\in \chi (j=1,2,...,n_{i}) {x1(i),x2(i),...,xni(i)},xj(i)∈χ(j=1,2,...,ni), y i ∈ { − 1 , + 1 } y_i \in\left \{ -1,+1 \right \} yi∈{−1,+1}是 X i X_i Xi的二进制标签。
多标签学习(MLL)
- 研究了一个实例描述的现实世界对象与多个类标签相关联的问题。
- 从给定的数据集 { ( x 1 , Y 1 ) , ( x 2 , Y 2 ) , . . . , ( x m , Y m ) } \left \{ ({x_1,Y_1}),({x_2,Y_2}),...,({x_m,Y_m}) \right \} {(x1,Y1),(x2,Y2),...,(xm,Ym)}中学习函数: f M L L : χ → 2 γ f_{MLL}:\chi \rightarrow 2^\gamma fMLL:χ→2γ。
- 其中 χ i ⊆ χ \chi _i\subseteq \chi χi⊆χ是一个实例, Y i ⊆ γ Y_i\subseteq \gamma Yi⊆γ是一组标签 { y 1 ( i ) , y 2 ( i ) , . . . , y l i ( i ) } , y k ( i ) ∈ γ ( k = 1 , 2 , . . . , l i ) \left \{y _{1}^{(i)},y _{2}^{(i)},...,y _{l_{i}}^{(i)} \right \},y_{k}^{(i)}\in \gamma (k=1,2,...,l_{i}) {y1(i),y2(i),...,yli(i)},yk(i)∈γ(k=1,2,...,li)。
总结
- 多实例学习研究输入空间(或实例空间)中的歧义,其中对象具有许多替代输入描述,即实例;
- 多标签学习研究输出空间(或标签空间)中的歧义,其中对象具有许多替代输出描述,即标签;
- MIML同时考虑输入和输出空间中的歧义;
使用多实例学习或多标签学习作为桥梁,通过在传统的监督学习框架中确定MIML的等效性。
方案一:使用多实例学习作为桥梁。
- 将MIML学习任务(即学习功能 f M I M L : 2 χ → 2 γ f_{MIML}:2^\chi→2^\gamma fMIML:2χ→2γ)转换为多实例学习(即学习功能 f M I L : 2 χ × γ → { − 1 , + 1 } f_{MIL}:2^\chi ×\gamma\rightarrow \left \{ -1,+1 \right \} fMIL:2χ×γ→{−1,+1})。
- 对于任何 y ∈ γ y\in\gamma y∈γ,如果 y ∈ Y i y\in Y_i y∈Yi,则 f M I L ( X i , y ) = + 1 f_{MIL}(X_i,y)=+1 fMIL(Xi,y)=+1,否则为-1。可以根据 Y ∗ = { y ∣ a r g y ∈ γ [ f M I L ( X ∗ , y ) = + 1 ] } Y^*=\left \{ y|arg_{y\in\gamma} [f_{MIL}(X^*,y)=+1 ]\right \} Y∗={y∣argy∈γ[fMIL(X∗,y)=+1]}确定新示例 X ∗ X^* X∗的适当标签。
- 将此多实例学习任务进一步转换为传统的有监督学习任务,即在指定如何从 f S I S L ( x j ( i ) , y ) ( j = 1 , . . . n i ) f_{SISL}\left ( x_{j}^{(i)},y \right )\left ( j=1,...n_i \right ) fSISL(xj(i),y)(j=1,...ni)导出 f M I L ( X i , y ) f_{MIL}\left ( X_i,y \right ) fMIL(Xi,y)的约束下学习函数 f S I S L : χ × γ → { − 1 , + 1 } f_{SISL}:\chi \times \gamma\rightarrow \left \{ -1,+1 \right \} fSISL:χ×γ→{−1,+1}。对于任何 y ∈ γ y\in\gamma y∈γ, f S I S L ( x j ( i ) , y ) = + 1 f_{SISL}\left ( x_{j}^{(i)},y \right )=+1 fSISL(xj(i),y)=+1,否则为-1。这里的约束条件可以是 f M I L ( X i , y ) = s i g n [ ∑ j = 1 n i f S I S L ( x j ( i ) , y ) ] f_{MIL}\left ( X_i,y \right )= sign\left [ \sum _{j=1}^{n_i}f_{SISL}\left ( x_j^{(i)} ,y\right )\right ] fMIL(Xi,y)=sign[∑j=1nifSISL(xj(i),y)],此条件已用于将多实例学习任务转换为传统的有监督学习任务。这里也可以用其他类型的约束。
- SISL:Single-instance single-label learning
方案二:使用多标签学习作为桥梁。
- 将MIML学习任务(即学习功能 f M I M L : 2 χ → 2 γ f_{MIML}:2^\chi→2^\gamma fMIML:2χ→2γ)转换为多标签学习任务(即学习功能 f M L L : Z → 2 γ f_{MLL}:Z\rightarrow 2^{\gamma} fMLL:Z→2γ)。
- 对于任何 z i ∈ Z z_{i}\in Z zi∈Z,如果 z i = ϕ ( X i ) , ϕ : 2 χ → Z z_{i}= \phi \left ( X_{i} \right ),\phi :2^{\chi }\rightarrow Z zi=ϕ(Xi),ϕ:2χ→Z,则 f M L L ( z i ) = f M I M L ( X i ) f_{MLL}\left ( z_{i} \right )=f_{MIML}\left ( X_{i} \right ) fMLL(zi)=fMIML(Xi)。可以根据 Y ∗ = f M L L ( ϕ ( X ∗ ) ) Y^{*}= f_{MLL}\left ( \phi \left ( X^{*} \right ) \right ) Y∗=fMLL(ϕ(X∗))确定新示例 X ∗ X^* X∗的适当标签。
- 可以将多标签学习任务进一步转换为传统的有监督学习任务,即学习函数 f S I S L : Z × γ → { − 1 , + 1 } f_{SISL}:Z\times \gamma \rightarrow \left \{ -1,+1 \right \} fSISL:Z×γ→{−1,+1}。对于任何 y ∈ γ y\in\gamma y∈γ,如果 y ∈ Y i y\in Y_i y∈Yi,则 f S I S L ( z i , y ) = + 1 f_{SISL}\left ( z_{i},y \right )=+1 fSISL(zi,y)=+1,否则为-1。也就是说 f M L L ( z i ) = { y ∣ a r g y ∈ γ [ f S I S L ( z i , y ) = + 1 ] } f_{MLL}\left ( z_{i} \right )= \left \{ y|arg_{y\in\gamma}[f_{SISL}\left ( z_{i},y \right )=+1] \right \} fMLL(zi)={y∣argy∈γ[fSISL(zi,y)=+1]}。
- 这里的映射可以通过构造聚类来实现,该聚类已用于将多实例包转换为传统的单实例。这里也可以用其他类型的映射。
算法:MIML BOOST(对应方案一)
- 前提定义:
- 给定任何集合 Ω \Omega Ω,让 ∣ Ω ∣ |\Omega| ∣Ω∣表示其大小,即 Ω \Omega Ω中的元素数;
- 给定任何谓词 π \pi π,如果 π \pi π成立,则 [ [ π ] ] [[\pi]] [[π]]为1,否则为0;
- 给定 ( X i , Y i ) \left ( X_{i},Y_{i} \right) (Xi,Yi),对于任何 y ∈ Y y\in Y y∈Y,如果 y ∈ Y i y\in Y_i y∈Yi,则令 Ψ ( X i , y ) = + 1 \Psi \left ( X_{i},y \right )=+1 Ψ(Xi,y)=+1,否则为-1,其中 Ψ \Psi Ψ是函数 Ψ : 2 χ × γ → { − 1 , + 1 } \Psi :2^{\chi }\times \gamma \rightarrow \left \{ -1,+1 \right \} Ψ:2χ×γ→{−1,+1}。表1为MIML BOOST算法。
- 第一步,将每个MIML示例
(
X
u
,
Y
u
)
(
u
=
1
,
2
,
.
.
.
,
m
)
\left ( X_{u},Y_{u} \right )\left ( u=1,2,...,m \right )
(Xu,Yu)(u=1,2,...,m)转换为多实例袋的数量
∣
γ
∣
\left | \gamma \right |
∣γ∣集合。
- 即 { [ ( X u , y 1 ) , Ψ ( X u , y 1 ) ] , [ ( X u , y 2 ) , Ψ ( X u , y 2 ) ] , . . . , [ ( X u , y ∣ γ ∣ ) , Ψ ( X u , y ∣ γ ∣ ) ] } \left \{ \left [ \left ( X_{u},y_{1} \right ),\Psi \left ( X_{u},y_{1} \right ) \right ] , \left[ \left ( X_{u},y_{2} \right ),\Psi \left ( X_{u},y_{2} \right ) \right ] ,...,\left[ \left ( X_{u},y_{\left | \gamma \right |} \right ),\Psi \left ( X_{u},y_{\left | \gamma \right |} \right ) \right ]\right \} {[(Xu,y1),Ψ(Xu,y1)],[(Xu,y2),Ψ(Xu,y2)],...,[(Xu,y∣γ∣),Ψ(Xu,y∣γ∣)]}。
- 注意, [ ( X u , y v ) , Ψ ( X u , y v ) ] ( v = 1 , 2 , . . . , ∣ γ ∣ ) \left [ \left ( X_{u},y_{v} \right ),\Psi \left ( X_{u},y_{v} \right ) \right ]\left ( v=1,2,...,\left | \gamma \right | \right ) [(Xu,yv),Ψ(Xu,yv)](v=1,2,...,∣γ∣)是标记的多实例袋,其中 ( X u , y v ) \left ( X_{u},y_{v} \right ) (Xu,yv)是包含实例数量为 n u n_u nu的袋,即 { ( x 1 ( u ) , y v ) , ( x 2 ( u ) , y v ) , . . . , ( x n u ( u ) , y v ) } \left \{ \left ( x_{1}^{\left ( u \right )},y_{v} \right ) ,\left ( x_{2}^{\left ( u \right )},y_{v} \right ),...,\left ( x_{n_u}^{\left ( u \right )},y_{v} \right )\right \} {(x1(u),yv),(x2(u),yv),...,(xnu(u),yv)}, Ψ ( X u , y v ) ∈ { + 1 , − 1 } \Psi \left ( X_{u},y_{v} \right )\in \left \{ +1,-1 \right \} Ψ(Xu,yv)∈{+1,−1}是这个袋子的标签。
- 因此,原始MIML数据集将转换为一个多实例数据集,包含袋数 m × ∣ γ ∣ m\times \left | \gamma \right | m×∣γ∣,即 { [ ( X 1 , y 1 ) , Ψ ( X 1 , y 1 ) ] , . . . , [ ( X 1 , y ∣ γ ∣ ) , Ψ ( X 1 , y ∣ γ ∣ ) ] , [ ( X 2 , y 1 ) , Ψ ( X 2 , y 1 ) ] , . . . , [ ( X m , y ∣ γ ∣ ) , Ψ ( X m , y ∣ γ ∣ ) ] } \left \{ \left [ \left ( X_1,y_1 \right ),\Psi \left ( X_1,y_1 \right ) \right ],...,\left [ \left ( X_1,y_{|\gamma|} \right ),\Psi \left ( X_1,y_{|\gamma|} \right ) \right ], \left [ \left ( X_2,y_1 \right ),\Psi \left ( X_2,y_1 \right ) \right ],...,\left [ \left ( X_m,y_{|\gamma|} \right ),\Psi \left ( X_m,y_{|\gamma|} \right ) \right ] \right \} {[(X1,y1),Ψ(X1,y1)],...,[(X1,y∣γ∣),Ψ(X1,y∣γ∣)],[(X2,y1),Ψ(X2,y1)],...,[(Xm,y∣γ∣),Ψ(Xm,y∣γ∣)]}。令 [ ( X ( i ) , y ( i ) ) , Ψ ( X ( i ) , y ( i ) ) ] \left [ \left ( X^{\left ( i \right )} ,y^{\left ( i \right )} \right ),\Psi \left ( X^{\left ( i \right )} ,y^{\left ( i \right )} \right ) \right ] [(X(i),y(i)),Ψ(X(i),y(i))]表示袋数 m × ∣ γ ∣ m\times \left | \gamma \right | m×∣γ∣中的第 i i i个,即 ( X ( 1 ) , y ( 1 ) ) \left ( X^{\left ( 1 \right )},y^{\left ( 1 \right )} \right ) (X(1),y(1))表示 ( X 1 , y 1 ) , . . . , ( X ( ∣ γ ∣ ) , y ( ∣ γ ∣ ) ) \left ( X_1,y_1 \right ),...,\left ( X^{\left ( \left | \gamma \right | \right )},y^{\left ( \left | \gamma \right | \right )} \right ) (X1,y1),...,(X(∣γ∣),y(∣γ∣)),表示 ( X 1 , y ∣ γ ∣ ) , . . . , ( X ( m × ∣ γ ∣ ) , y ( m × ∣ γ ∣ ) ) \left ( X_1,y_{\left | \gamma \right |}\right ),...,\left ( X^{\left ( m\times \left | \gamma \right | \right )} ,y^{\left ( m\times \left | \gamma \right | \right )} \right ) (X1,y∣γ∣),...,(X(m×∣γ∣),y(m×∣γ∣)),表示 ( X m , y ∣ γ ∣ ) \left ( X_m,y_{\left | \gamma \right |} \right ) (Xm,y∣γ∣),其中 ( X ( i ) , y ( i ) ) \left ( X^{\left ( i \right )} ,y^{\left ( i \right )}\right ) (X(i),y(i))包含 n i n_i ni个实例数,即 { ( x 1 ( i ) , y ( i ) ) , ( x 2 ( i ) , y ( i ) ) , . . . , ( x n i ( i ) , y ( i ) ) } \left \{ \left ( \boldsymbol{x}_{1}^{\left ( i \right )},y^{\left ( i \right )} \right ),\left ( \boldsymbol{x}_{2}^{\left ( i \right )},y^{\left ( i \right )} \right ) ,...,\left ( \boldsymbol{x}_{n_i}^{\left ( i \right )},y^{\left ( i \right )} \right )\right \} {(x1(i),y(i)),(x2(i),y(i)),...,(xni(i),y(i))}。
- 然后,可以从数据集中学习多实例学习函数 f M I L f_{MIL} fMIL,因为 f M I M L ( X ∗ ) = { y ∣ a r g y ∈ γ ( s i g n [ f M I L ( X ∗ ) , y ] = + 1 ) } f_{MIML}\left ( X^* \right )= \left \{ y|arg_{y\in \gamma}\left (sign[f_{MIL}\left ( X^* \right ),y]= +1 \right ) \right \} fMIML(X∗)={y∣argy∈γ(sign[fMIL(X∗),y]=+1)}。在这里,我们使用MIBOOSTING实现 f M I L f_{MIL} fMIL。
- 【未完待续】
M3MIML: A maximum margin method for multi-instance multi-label learning.
M.-L. Zhang and Z.-H. Zhou. M3MIML: A maximum margin method for multi-instance multi-label learning. In: Proceedings of the 8th IEEE International Conference on Data Mining (ICDM’08), Pisa, Italy, 2008, pp.688-697.
- 针对MIML的最大余量方法,该方法直接利用了实例与标签之间的联系。
- 在图像分类中,一个图像通常包含几个自然分区的补丁(patch),每个补丁都可以表示为一个实例,而这样的图像可以同时对应于多个语义类别,例如云,草地和狮子。
M 3 M I M L M^3MIML M3MIML算法
- M 3 M I M L M^3MIML M3MIML:多实例多标签的最大边距法。为每个类别都假设一个线性模型,其中一个类别的输出设置为相对于相应的线性模型,所有MIML示例的实例的最大预测。随后,将所有可能类的输出组合在一起,以定义分类系统上MIML示例的边距。显然,每个实例都涉及确定每个可能类的输出,并且在组合阶段还解决了不同类之间的相关性。因此, M 3 M I M L M^3MIML M3MIML显式利用了实例和MIML示例的标签之间的连接。
Primal form
给定一个MIML训练示例
(
X
i
,
Y
i
)
\left ( X_{i},Y_{i} \right )
(Xi,Yi),让
Y
i
⃗
\vec{Y_i}
Yi表示
X
i
X_i
Xi的类别向量,如果
l
∈
Y
i
l\in Y_{i}
l∈Yi,则第
l
l
l个分量
Y
i
⃗
(
l
)
\vec{Y_i}(l)
Yi(l)等于1,否则为-1。假设分类系统由
Q
Q
Q个线性模型
{
(
w
l
,
b
l
)
∣
l
∈
γ
}
\left \{ \left ( \boldsymbol w_{l},b_l \right ) | l\in\gamma\right \}
{(wl,bl)∣l∈γ}组成,每个线性模型对应于一个可能的类别标签。其中,
w
l
∈
R
d
w_l\in \mathbb{R}^{d}
wl∈Rd是第
l
l
l的权重向量,而
b
l
∈
R
b_l\in \mathbb{R}
bl∈R是相应的偏差。
M
3
M
I
M
L
M^3MIML
M3MIML假设系统在第
l
l
l类上针对
(
X
i
,
Y
i
)
\left ( X_{i},Y_{i} \right )
(Xi,Yi)的系统输出由
X
i
X_i
Xi对
(
w
l
,
b
l
)
\left ( \boldsymbol w_{l},b_l \right )
(wl,bl)实例的最大预测确定。对于看不见的袋子
X
∈
χ
X\in\chi
X∈χ,其相关标签集可通过以下方式确定:
Y
=
{
l
∣
m
a
x
x
∈
X
(
⟨
w
l
,
x
⟩
+
b
l
)
≥
0
,
l
∈
γ
}
Y=\left \{ l|\underset{x\in X}{max}\left ( \left \langle \boldsymbol w_{l},\boldsymbol x \right \rangle +b_l \right )\geq 0,l\in \gamma \right \}
Y={l∣x∈Xmax(⟨wl,x⟩+bl)≥0,l∈γ}
基于输出,我们将第
l
l
l类的
(
X
i
,
Y
i
)
\left ( X_{i},Y_{i} \right )
(Xi,Yi)的边距定义为:
Y
i
⃗
⋅
m
a
x
x
∈
X
i
(
⟨
w
l
,
x
⟩
+
b
l
)
∥
w
l
∥
\frac{\vec{Y_i}\cdot \underset{x\in X_i}{max}\left ( \left \langle \boldsymbol w_{l},\boldsymbol x \right \rangle +b_l \right)}{\left \| \boldsymbol w_l \right \|}
∥wl∥Yi⋅x∈Ximax(⟨wl,x⟩+bl)
其中,
⟨
⋅
,
⋅
⟩
\left \langle \cdot ,\cdot \right \rangle
⟨⋅,⋅⟩计算两个向量之间的点积,
∥
⋅
∥
\left \| \cdot \right \|
∥⋅∥表示向量范数。相对于分类系统
(
X
i
,
Y
i
)
\left ( X_{i},Y_{i} \right )
(Xi,Yi)的边距设置为所有类别上
(
X
i
,
Y
i
)
\left ( X_{i},Y_{i} \right )
(Xi,Yi)的最小边距:
m
i
n
l
∈
γ
Y
i
⃗
⋅
m
a
x
x
∈
X
i
(
⟨
w
l
,
x
⟩
+
b
l
)
∥
w
l
∥
\underset{l\in\gamma}{min}\frac{\vec{Y_i}\cdot \underset{x\in X_i}{max}\left ( \left \langle \boldsymbol w_{l},\boldsymbol x \right \rangle +b_l \right)}{\left \| \boldsymbol w_l \right \|}
l∈γmin∥wl∥Yi⋅x∈Ximax(⟨wl,x⟩+bl)