题目
Isolation Set-Kernel and Its Application to Multi-Instance Learning
隔离集核及其在多示例学习中的应用
SIGKDD international conference on knowledge discovery & data mining CCF-A
摘要
集合级问题与实例级问题一样重要。解决集合级问题的核心是:如何衡量两个集合之间的相似度。本文研究了直接从数据派生的数据相关内核。我们引入了完全依赖于数据分布的 Isolation Set-Kernel,既不需要类信息也不需要显式学习。相比之下,大多数当前的集合相似性不依赖于基础数据分布。
我们从理论上分析了Isolation Set-Kernel的特性。由于 set-kernel 具有有限的特征图,我们证明它可以用来显着加快 set-kernel 计算。我们使用 SVM 分类器将 Isolation Set-Kernel 应用于多示例学习 (MIL),并证明它优于其他 set-kernels 或其他解决 MIL 问题的解决方案。
引入
基于核的方法:
a) 设计基于传统核(高斯核)的set-kernel
b) 使用现有的set-kernel(Fisher核)来定制MIL
基于核的方法通常比非基于核的方法具有更低的时间复杂度。这是因为他们可以将每个包转换为映射实例;而非基于内核的方法需要处理输入空间中数量远大于包数量的实例
所提出的集合核与基于高斯核的方法在两个方面有所不同:
a) Isolation Kernel 为数据相关内核;高斯核(或其他相关)是数据独立的
b) Isolation Kernel 特征图是一个固定长度的稀疏表示;高斯或其他具有无限数量的特征
所提出的集合核与基于 Fisher 核的方法 在两个方面有所不同:
a) 不需要似然估计方法(在 Fisher 核中使用)或任何其他显式学习
b) Fisher Kernel 的特征图是一种密集表示,而提出的 set-kernel 是一种稀疏表示
RELATED WORK
数据相关的实例级核(instance-level kernels), MIL 中的集合核set-kernels
Isolation Kernel [19] 首次提出作为两个实例之间的相似性
本文的工作是隔离核从实例级相似性度量到集合级相似性度量的扩展
D
D
D:给定数据集
H
H
H:分区
H
(
D
)
\mathcal{H}(D)
H(D):在
D
D
D下可允许的所有分区的集合
θ
∈
H
\theta \in H
θ∈H:isolation partition(隔离分区),在随机子集
D
\mathcal{D}
D中将一个实例
x
x
x与其余实例隔离开
D
⊂
D
\mathcal{D} \subset D
D⊂D:随机子集,
∣
D
=
ψ
∣
|\mathcal{D}=\psi|
∣D=ψ∣
实例
x
,
y
x,y
x,y关于
D
D
D的Isolation Kernel定义为:在所有分区
H
∈
H
ψ
(
D
)
H \in \mathcal{H}_\psi(D)
H∈Hψ(D)上,
x
,
y
x,y
x,y都属于同一隔离分区
θ
\theta
θ的概率分布期望
K
(
x
,
y
∣
D
)
=
E
H
∈
H
ψ
(
D
)
[
I
(
x
,
y
∈
θ
∣
θ
∈
H
)
]
K(x,y|D)=\mathbb{E}_{H \in \mathcal{H}_\psi(D)}[\mathbb{I}(x,y\in \theta|\theta \in H)]
K(x,y∣D)=EH∈Hψ(D)[I(x,y∈θ∣θ∈H)]
其中
I
(
B
)
\mathbb{I}(B)
I(B)为指示函数,
B
B
B为真输出1,否则输出0
实际上,Isolation Kernel将从有限数量的分区中估计
H
i
=
∈
H
ψ
(
D
)
,
i
=
1
,
…
,
t
H_i= \in \mathcal{H}_\psi(D),i=1,\dots,t
Hi=∈Hψ(D),i=1,…,t
K
(
x
,
y
∣
D
)
=
1
t
∑
i
=
1
t
∑
θ
∈
H
i
I
(
x
∈
θ
)
I
(
y
∈
θ
)
,
K
(
x
,
y
∣
D
)
∈
[
0
,
1
]
K(x,y|D)=\frac{1}{t}\mathop{\sum}\limits_{i=1}^t \mathop{\sum}\limits_{\theta \in H_i}\mathbb{I}(x \in \theta)\mathbb{I}(y \in \theta),K(x,y|D) \in [0,1]
K(x,y∣D)=t1i=1∑tθ∈Hi∑I(x∈θ)I(y∈θ),K(x,y∣D)∈[0,1]
图核:miGraph 、 MiGraph;高斯核;Fisher核:miFV
隔离集核
符号系统
符号 | 表示 |
---|---|
D = { x k ∣ x k ∈ S i , S i ∈ D , i = 1 , … , n } D=\{x_k|x_k \in S_i,S_i \in D,i=1,\dots,n\} D={xk∣xk∈Si,Si∈D,i=1,…,n} | 整体数据集 |
S i = { x i , … , x w i } S_i=\{x_i,\dots,x_{w_i}\} Si={xi,…,xwi} | 从未知概率密度函数中采样的数据集 |
H ( D ) H(D) H(D) | 所有分区的集合 |
θ ∈ H \theta \in H θ∈H | 隔离分区 |
D ⊂ D , ∣ D ∣ = ψ \mathcal{D} \subset D,|\mathcal{D}|=\psi D⊂D,∣D∣=ψ | 随机子集 |
S
S
S和
T
T
T关于
D
D
D的ISK定义为在所有分区
H
∈
H
ψ
(
D
)
H \in \mathcal{H}_\psi(D)
H∈Hψ(D)上,
x
∈
S
,
y
∈
T
x \in S,y \in T
x∈S,y∈T都属于同一隔离分区
θ
∈
H
\theta \in H
θ∈H的概率分布的期望:
K
ψ
(
x
,
y
∣
D
)
=
E
H
ψ
(
D
)
[
I
(
x
,
y
∈
θ
∣
θ
∈
H
;
x
∈
T
,
y
∈
S
)
]
\mathcal{K}_{\psi}(x,y|D)=\mathbb{E}_{\mathcal{H}_\psi(D)}[\mathbb{I}(x,y\in \theta|\theta \in H;x\in T,y\in S)]
Kψ(x,y∣D)=EHψ(D)[I(x,y∈θ∣θ∈H;x∈T,y∈S)]
有限分区:
H
i
∈
H
ψ
(
D
)
,
i
=
1
,
…
,
t
H_i \in \mathcal{H}_\psi(D),i=1,\dots,t
Hi∈Hψ(D),i=1,…,t
K
ψ
(
x
,
S
∣
D
)
=
1
t
∣
S
∣
∑
y
∈
S
∑
i
=
1
t
I
(
x
,
y
∈
θ
∣
θ
∈
H
i
)
=
1
∣
S
∣
∑
y
∈
S
K
(
x
,
y
∣
D
)
\mathcal{K}_\psi(x,S|D)=\frac{1}{t|S|}\mathop{\sum}\limits_{y\in S}\mathop{\sum}\limits_{i=1}^t \mathbb{I}(x,y \in \theta|\theta\in H_i)\\ =\frac{1}{|S|}\mathop{\sum}\limits_{y\in S}K(x,y|D)
Kψ(x,S∣D)=t∣S∣1y∈S∑i=1∑tI(x,y∈θ∣θ∈Hi)=∣S∣1y∈S∑K(x,y∣D)
K
ψ
(
S
,
T
∣
D
)
=
1
∣
T
∣
∑
x
∈
T
K
ψ
(
x
,
S
∣
D
)
\mathcal{K}_\psi(S,T|D)=\frac{1}{|T|}\mathop{\sum}\limits_{x\in T}\mathcal{K}_\psi(x,S|D)
Kψ(S,T∣D)=∣T∣1x∈T∑Kψ(x,S∣D)
特征映射:有用户可定义数量的特征的稀疏表示
v
(
S
∣
H
)
\mathbf{v}(S|H)
v(S∣H)表示长度为
ψ
\psi
ψ的向量,代表
S
S
S中所有实例落入分区
θ
j
∈
H
\theta_j \in H
θj∈H的比例,
j
=
1
,
…
,
ψ
j=1,\dots,\psi
j=1,…,ψ
v
j
(
S
∣
H
)
=
1
∣
S
∣
∑
y
∈
S
I
(
y
∈
θ
j
∣
θ
j
∈
H
)
v_j(S|H)=\frac{1}{|S|}\mathop{\sum}\limits_{y\in S}\mathbb{I}(y\in \theta_j|\theta_j \in H)
vj(S∣H)=∣S∣1y∈S∑I(y∈θj∣θj∈H)
ISK的特征映射:
ϕ
(
S
)
=
[
v
(
S
∣
H
1
)
,
v
(
S
∣
H
2
)
,
…
,
v
(
S
∣
H
t
)
]
\mathbf{\phi}(S)=[\mathbf{v}(S|H_1),\mathbf{v}(S|H_2),\dots,\mathbf{v}(S|H_t)]
ϕ(S)=[v(S∣H1),v(S∣H2),…,v(S∣Ht)]
其中
H
i
∈
H
ψ
(
D
)
,
i
=
1
,
…
,
t
H_i \in \mathcal{H}_\psi(D),i=1,\dots,t
Hi∈Hψ(D),i=1,…,t,则任意大小的集合
S
⊂
R
d
S \subset \mathbb{R}^d
S⊂Rd,转换为
R
t
ψ
\mathbb{R}^{t\psi}
Rtψ中的映射实例
K
ψ
\mathcal{K}_\psi
Kψ的重新改写:
K
ψ
(
S
,
T
)
=
1
∣
T
∣
∑
x
∈
T
[
1
t
∣
S
∣
∑
y
∈
S
∑
i
=
1
t
∑
θ
∈
H
i
I
(
x
∈
θ
)
I
(
y
∈
θ
)
]
=
1
t
∣
T
∣
∣
S
∣
∑
i
=
1
t
[
∑
y
∈
S
∑
i
=
1
t
∑
θ
∈
H
i
I
(
x
∈
θ
)
I
(
y
∈
θ
)
]
=
1
t
∣
T
∣
∣
S
∣
∑
i
=
1
t
ϕ
(
S
)
T
,
ϕ
(
T
)
=
1
t
ϕ
(
S
)
T
,
ϕ
(
T
)
=
c
o
n
s
t
×
⟨
ϕ
(
S
)
,
ϕ
(
T
)
⟩
\mathcal{K}_\psi(S,T)=\frac{1}{|T|}\mathop{\sum}\limits_{x\in T}\left[\frac{1}{t|S|} \mathop{\sum}\limits_{y\in S}\mathop{\sum}\limits_{i=1}^t \mathop{\sum}\limits_{\theta \in H_i}\mathbb{I}(x \in \theta) \mathbb{I}(y \in \theta)\right]\\ =\frac{1}{t|T||S|}\mathop{\sum}\limits_{i=1}^t \left[\mathop{\sum}\limits_{y\in S}\mathop{\sum}\limits_{i=1}^t \mathop{\sum}\limits_{\theta \in H_i}\mathbb{I}(x \in \theta) \mathbb{I}(y \in \theta)\right]\\ =\frac{1}{t|T||S|}\mathop{\sum}\limits_{i=1}^t\phi(S)^T,\phi(T)\\ =\frac{1}{t}\phi(S)^T,\phi(T)\\ =const \times \langle\phi(S),\phi(T)\rangle
Kψ(S,T)=∣T∣1x∈T∑⎣⎡t∣S∣1y∈S∑i=1∑tθ∈Hi∑I(x∈θ)I(y∈θ)⎦⎤=t∣T∣∣S∣1i=1∑t⎣⎡y∈S∑i=1∑tθ∈Hi∑I(x∈θ)I(y∈θ)⎦⎤=t∣T∣∣S∣1i=1∑tϕ(S)T,ϕ(T)=t1ϕ(S)T,ϕ(T)=const×⟨ϕ(S),ϕ(T)⟩
所以,
K
ψ
≡
⟨
ϕ
(
S
)
,
ϕ
(
T
)
⟩
\mathcal{K}_\psi \equiv \langle\phi(S),\phi(T)\rangle
Kψ≡⟨ϕ(S),ϕ(T)⟩
优点:
a)固定长度的表示,将不同大小的单个集合转换为具有相同特征大小的单个映射实例
b)不同于现有的数据独立内核,适应给定数据集的密度结构
c)一种稀疏表示,而不是给定的数据表示,可以促进效率内核计算