【论文阅读】Isolation Set-Kernel and Its Application to Multi-Instance Learning

题目

Isolation Set-Kernel and Its Application to Multi-Instance Learning
隔离集核及其在多示例学习中的应用
SIGKDD international conference on knowledge discovery & data mining CCF-A

摘要

集合级问题与实例级问题一样重要。解决集合级问题的核心是:如何衡量两个集合之间的相似度。本文研究了直接从数据派生的数据相关内核。我们引入了完全依赖于数据分布的 Isolation Set-Kernel,既不需要类信息也不需要显式学习。相比之下,大多数当前的集合相似性不依赖于基础数据分布。
我们从理论上分析了Isolation Set-Kernel的特性。由于 set-kernel 具有有限的特征图,我们证明它可以用来显着加快 set-kernel 计算。我们使用 SVM 分类器将 Isolation Set-Kernel 应用于多示例学习 (MIL),并证明它优于其他 set-kernels 或其他解决 MIL 问题的解决方案。

引入

基于核的方法:
a) 设计基于传统核(高斯核)的set-kernel
b) 使用现有的set-kernel(Fisher核)来定制MIL
基于核的方法通常比非基于核的方法具有更低的时间复杂度。这是因为他们可以将每个包转换为映射实例;而非基于内核的方法需要处理输入空间中数量远大于包数量的实例

所提出的集合核与基于高斯核的方法在两个方面有所不同:
a) Isolation Kernel 为数据相关内核;高斯核(或其他相关)是数据独立的
b) Isolation Kernel 特征图是一个固定长度的稀疏表示;高斯或其他具有无限数量的特征

所提出的集合核与基于 Fisher 核的方法 在两个方面有所不同:
a) 不需要似然估计方法(在 Fisher 核中使用)或任何其他显式学习
b) Fisher Kernel 的特征图是一种密集表示,而提出的 set-kernel 是一种稀疏表示

RELATED WORK

数据相关的实例级核(instance-level kernels), MIL 中的集合核set-kernels
Isolation Kernel [19] 首次提出作为两个实例之间的相似性
本文的工作是隔离核从实例级相似性度量到集合级相似性度量的扩展

D D D:给定数据集
H H H:分区
H ( D ) \mathcal{H}(D) H(D):在 D D D下可允许的所有分区的集合
θ ∈ H \theta \in H θH:isolation partition(隔离分区),在随机子集 D \mathcal{D} D中将一个实例 x x x与其余实例隔离开
D ⊂ D \mathcal{D} \subset D DD:随机子集, ∣ D = ψ ∣ |\mathcal{D}=\psi| D=ψ
实例 x , y x,y x,y关于 D D D的Isolation Kernel定义为:在所有分区 H ∈ H ψ ( D ) H \in \mathcal{H}_\psi(D) HHψ(D)上, x , y x,y x,y都属于同一隔离分区 θ \theta θ的概率分布期望
K ( x , y ∣ D ) = E H ∈ H ψ ( D ) [ I ( x , y ∈ θ ∣ θ ∈ H ) ] K(x,y|D)=\mathbb{E}_{H \in \mathcal{H}_\psi(D)}[\mathbb{I}(x,y\in \theta|\theta \in H)] K(x,yD)=EHHψ(D)[I(x,yθθH)]
其中 I ( B ) \mathbb{I}(B) I(B)为指示函数, B B B为真输出1,否则输出0

实际上,Isolation Kernel将从有限数量的分区中估计 H i = ∈ H ψ ( D ) , i = 1 , … , t H_i= \in \mathcal{H}_\psi(D),i=1,\dots,t Hi=Hψ(D),i=1,,t
K ( x , y ∣ D ) = 1 t ∑ i = 1 t ∑ θ ∈ H i I ( x ∈ θ ) I ( y ∈ θ ) , K ( x , y ∣ D ) ∈ [ 0 , 1 ] K(x,y|D)=\frac{1}{t}\mathop{\sum}\limits_{i=1}^t \mathop{\sum}\limits_{\theta \in H_i}\mathbb{I}(x \in \theta)\mathbb{I}(y \in \theta),K(x,y|D) \in [0,1] K(x,yD)=t1i=1tθHiI(xθ)I(yθ),K(x,yD)[0,1]

图核:miGraph 、 MiGraph;高斯核;Fisher核:miFV

隔离集核

符号系统
符号表示
D = { x k ∣ x k ∈ S i , S i ∈ D , i = 1 , … , n } D=\{x_k|x_k \in S_i,S_i \in D,i=1,\dots,n\} D={xkxkSi,SiD,i=1,,n}整体数据集
S i = { x i , … , x w i } S_i=\{x_i,\dots,x_{w_i}\} Si={xi,,xwi}从未知概率密度函数中采样的数据集
H ( D ) H(D) H(D)所有分区的集合
θ ∈ H \theta \in H θH隔离分区
D ⊂ D , ∣ D ∣ = ψ \mathcal{D} \subset D,|\mathcal{D}|=\psi DD,D=ψ随机子集

S S S T T T关于 D D D的ISK定义为在所有分区 H ∈ H ψ ( D ) H \in \mathcal{H}_\psi(D) HHψ(D)上, x ∈ S , y ∈ T x \in S,y \in T xS,yT都属于同一隔离分区 θ ∈ H \theta \in H θH的概率分布的期望:
K ψ ( x , y ∣ D ) = E H ψ ( D ) [ I ( x , y ∈ θ ∣ θ ∈ H ; x ∈ T , y ∈ S ) ] \mathcal{K}_{\psi}(x,y|D)=\mathbb{E}_{\mathcal{H}_\psi(D)}[\mathbb{I}(x,y\in \theta|\theta \in H;x\in T,y\in S)] Kψ(x,yD)=EHψ(D)[I(x,yθθH;xT,yS)]
有限分区: H i ∈ H ψ ( D ) , i = 1 , … , t H_i \in \mathcal{H}_\psi(D),i=1,\dots,t HiHψ(D),i=1,,t
K ψ ( x , S ∣ D ) = 1 t ∣ S ∣ ∑ y ∈ S ∑ i = 1 t I ( x , y ∈ θ ∣ θ ∈ H i ) = 1 ∣ S ∣ ∑ y ∈ S K ( x , y ∣ D ) \mathcal{K}_\psi(x,S|D)=\frac{1}{t|S|}\mathop{\sum}\limits_{y\in S}\mathop{\sum}\limits_{i=1}^t \mathbb{I}(x,y \in \theta|\theta\in H_i)\\ =\frac{1}{|S|}\mathop{\sum}\limits_{y\in S}K(x,y|D) Kψ(x,SD)=tS1ySi=1tI(x,yθθHi)=S1ySK(x,yD)
K ψ ( S , T ∣ D ) = 1 ∣ T ∣ ∑ x ∈ T K ψ ( x , S ∣ D ) \mathcal{K}_\psi(S,T|D)=\frac{1}{|T|}\mathop{\sum}\limits_{x\in T}\mathcal{K}_\psi(x,S|D) Kψ(S,TD)=T1xTKψ(x,SD)

特征映射:有用户可定义数量的特征的稀疏表示
v ( S ∣ H ) \mathbf{v}(S|H) v(SH)表示长度为 ψ \psi ψ的向量,代表 S S S中所有实例落入分区 θ j ∈ H \theta_j \in H θjH的比例, j = 1 , … , ψ j=1,\dots,\psi j=1,,ψ
v j ( S ∣ H ) = 1 ∣ S ∣ ∑ y ∈ S I ( y ∈ θ j ∣ θ j ∈ H ) v_j(S|H)=\frac{1}{|S|}\mathop{\sum}\limits_{y\in S}\mathbb{I}(y\in \theta_j|\theta_j \in H) vj(SH)=S1ySI(yθjθjH)

ISK的特征映射
ϕ ( S ) = [ v ( S ∣ H 1 ) , v ( S ∣ H 2 ) , … , v ( S ∣ H t ) ] \mathbf{\phi}(S)=[\mathbf{v}(S|H_1),\mathbf{v}(S|H_2),\dots,\mathbf{v}(S|H_t)] ϕ(S)=[v(SH1),v(SH2),,v(SHt)]
其中 H i ∈ H ψ ( D ) , i = 1 , … , t H_i \in \mathcal{H}_\psi(D),i=1,\dots,t HiHψ(D),i=1,,t,则任意大小的集合 S ⊂ R d S \subset \mathbb{R}^d SRd,转换为 R t ψ \mathbb{R}^{t\psi} Rtψ中的映射实例

K ψ \mathcal{K}_\psi Kψ的重新改写
K ψ ( S , T ) = 1 ∣ T ∣ ∑ x ∈ T [ 1 t ∣ S ∣ ∑ y ∈ S ∑ i = 1 t ∑ θ ∈ H i I ( x ∈ θ ) I ( y ∈ θ ) ] = 1 t ∣ T ∣ ∣ S ∣ ∑ i = 1 t [ ∑ y ∈ S ∑ i = 1 t ∑ θ ∈ H i I ( x ∈ θ ) I ( y ∈ θ ) ] = 1 t ∣ T ∣ ∣ S ∣ ∑ i = 1 t ϕ ( S ) T , ϕ ( T ) = 1 t ϕ ( S ) T , ϕ ( T ) = c o n s t × ⟨ ϕ ( S ) , ϕ ( T ) ⟩ \mathcal{K}_\psi(S,T)=\frac{1}{|T|}\mathop{\sum}\limits_{x\in T}\left[\frac{1}{t|S|} \mathop{\sum}\limits_{y\in S}\mathop{\sum}\limits_{i=1}^t \mathop{\sum}\limits_{\theta \in H_i}\mathbb{I}(x \in \theta) \mathbb{I}(y \in \theta)\right]\\ =\frac{1}{t|T||S|}\mathop{\sum}\limits_{i=1}^t \left[\mathop{\sum}\limits_{y\in S}\mathop{\sum}\limits_{i=1}^t \mathop{\sum}\limits_{\theta \in H_i}\mathbb{I}(x \in \theta) \mathbb{I}(y \in \theta)\right]\\ =\frac{1}{t|T||S|}\mathop{\sum}\limits_{i=1}^t\phi(S)^T,\phi(T)\\ =\frac{1}{t}\phi(S)^T,\phi(T)\\ =const \times \langle\phi(S),\phi(T)\rangle Kψ(S,T)=T1xTtS1ySi=1tθHiI(xθ)I(yθ)=tTS1i=1tySi=1tθHiI(xθ)I(yθ)=tTS1i=1tϕ(S)T,ϕ(T)=t1ϕ(S)T,ϕ(T)=const×ϕ(S),ϕ(T)
所以, K ψ ≡ ⟨ ϕ ( S ) , ϕ ( T ) ⟩ \mathcal{K}_\psi \equiv \langle\phi(S),\phi(T)\rangle Kψϕ(S),ϕ(T)
优点:
a)固定长度的表示,将不同大小的单个集合转换为具有相同特征大小的单个映射实例
b)不同于现有的数据独立内核,适应给定数据集的密度结构
c)一种稀疏表示,而不是给定的数据表示,可以促进效率内核计算

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值