一、论文基本信息
1. 题目
Dissimilarity-based sparse subset selection
2. 作者
Ehsan Elhamifar, Guillermo Sapiro
3. 发表信息
TPAMI, 2015.12
二、阅读笔记
0. 摘要
- 研究问题:从源集(source set)中选择样本子集,使其能够充分表达目标集(target set)。
- 优化模型:行稀疏正则的迹最小化问题。
- 模型求解:引入凸松弛,采用ADMM方法进行求解。
1. 引言
1.0 概述
- 原型定义:选择出的具有丰富信息的样本。
- 视频的数据表示示例
- 子集选择的意义:降低算法的时间复杂度和存储复杂度。
1.1 子集选择文献综述
- 概述:根据原型应保留的信息类型,可将方法分为两类。
- 类型一: 在一个或多个低维子空间内寻找原型样本。
- 类型二: 基于数据间的相似性或相异性度量。
(1)优点1:对于高维数据集,相似性/相异性度量矩阵的操作更为高效。
(2)优点2:对于某些不在向量空间的数据集(如社交网络等),相似性/相异性度量已经存在,或可高效获得。
(3)存在问题:依赖初始化,对于原始问题寻找逼近求解,对于数据关系度量强加类型限制。
(4)代表方法:Kmedoids算法,AP算法, DPPs算法,次模选择方法
(5)使用相异性的方法,往往在尺度扩展性能上较差。
1.2 创新点
- 考虑了具有相异性度量的两个不同数据集。
- 可处理任意相异性度量。
- 可处理离群值。
- 基于凸规划设计算法,因而不依赖于初始化。
2. 基于相异性的稀疏子集选择
2.1 问题描述
- 符号描述:
(1)源集: X = { x 1 , … , x M } \mathbb{X} = \{ x_1, \dots, x_M \} X={ x1,…,xM}
(2)目标集: Y = { y 1 , … , y N } \mathbb{Y} = \{ y_1, \dots, y_N \} Y={ y1,…,yN}
(3)相异性矩阵:
D ≜ [ d 1 T ⋮ d M T ] = [ d 11 d 12 ⋯ d 1 N ⋮ ⋮ ⋮ d M 1 d M 2 ⋯ d M N ] \mathbf{D} \triangleq \left[ \begin{matrix} \mathbf{d}_1^T \\ \vdots \\ \mathbf{d}_M^T \end{matrix}\right] = \left[ \begin{matrix} \mathbf{d}_{11} & \mathbf{d}_{12} & \cdots & \mathbf{d}_{1N} \\ \vdots & \vdots & & \vdots \\ \mathbf{d}_{M1} & \mathbf{d}_{M2} & \cdots & \mathbf{d}_{MN} \end{matrix} \right] D≜⎣⎢⎡d1T⋮dMT⎦⎥⎤=⎣⎢⎡d11⋮dM1d12⋮dM2⋯⋯d1N⋮dMN⎦⎥⎤ - 给定 D \mathbf{D} D,从源集 X \mathbb{X} X中选择小规模子集,以充分表示目标集 Y \mathbb{Y} Y中的全部元素。如下图所示。
- 重点: 在本文中 X \mathbb{X} X和 Y \mathbb{Y} Y中的元素可为不同类型,如模型和数据点。下表列出各情形下相异性矩阵 D \mathbf{D} D的度量方法:
X \mathbb{X} X元素 | Y \mathbb{Y} Y元素 | D \mathbf{D} D度量方法 |
---|---|---|
模型 | 数据点 | 数据通过模型表示的误差 |
模型 | 模型 | 动态系统距离、概率分布的KL散度 |
数据点 | 数据点 | 哈明距离、欧氏距离、几何距离 |
2.2 相异性
- 相异性学习方法:
(1)当 X \mathbb{X} X和 Y \mathbb{Y} Y为向量空间表示时,可用如下方法:
d i j = ∥ x i − A y j ∥ d_{ij}=\left\| \mathbf{x}_i - \mathbf{A}\mathbf{y}_j\right\| dij=∥xi−Ayj∥
d i j = ∥ x i − y j ∥ 2 d_{ij}=\left\| \mathbf{x}_i - \mathbf{y}_j\right\|_2 dij=∥xi−yj∥2
d i j = min { β , ∥ x i − y j ∥ 2 2 } d_{ij}=\min\left\{ \beta, \left\| \mathbf{x}_i - \mathbf{y}_j\right\|_2^2\right\} dij=min{ β,∥xi−yj∥22},其中 β \beta β为常数
(2)当 X \mathbb{X} X和 Y \mathbb{Y} Y不在向量空间中时,可用如下方法:
社交网络图中的边际,图像间的两两主观比较,基于字符串核的句子间相似性计算等。
(3)还可通过其他度量学习方法得到。
2.3 DS3算法
2.3.0 概述
- 定义一基于相异性度量 d i j d_{ij} dij的新变量 z i j z_{ij} zij如下
Z ≜ [ z 1 T ⋮ z M T ] = [ z 11 z 12 ⋯ z 1 N ⋮ ⋮ ⋮ z M 1 z M 2 ⋯ z M N ] \mathbf{Z} \triangleq \left[ \begin{matrix} \mathbf{z}_1^T \\ \vdots \\ \mathbf{z}_M^T \end{matrix} \right] = \left[ \begin{matrix} z_{11} & z_{12} & \cdots & z_{1N} \\ \vdots & \vdots & & \vdots \\ z_{M1} & z_{M2} & \cdots & z_{MN} \end{matrix} \right] Z≜⎣⎢⎡z1T⋮zMT⎦⎥⎤=⎣⎢⎡z11⋮zM1z12⋮zM2⋯⋯z1N⋮zMN⎦⎥⎤
令 z i j ∈ { 0 , 1 } z_{ij} \in \left\{0, 1\right\} zij∈{ 0,1}表示 x i \mathbf{x}_i xi是否为 y j \mathbf{y}_j yj的原型(1为是,0为否)。此外,为确保每个 y j \mathbf{y}_j yj仅有一个原型,则 Z \mathbf{Z} Z的每列之和应为1,即 ∑ i = 1 N z i j = 1 \sum_{i=1}^Nz_{ij}=1 ∑i=1Nzij=1。
2.3.1 同时进行的基于稀疏恢复的优化
- 优化目的
(1)要求原型能够较好的表示目标集 Y \mathbb{Y} Y中的元素。
若 x i \mathbf{x}_i xi是表示 y j \mathbf{y}_j yj的原型,则该项的编码损失为 d i j z i j ∈ { 0 , d i j } d_{ij}z_{ij}\in \left\{ 0, d_{ij} \right\} dijzij∈{ 0,dij}。
则基于 X \mathbb{X} X的 y j \mathbf{y}_j yj的编码损失为 ∑ i = 1 N d i j z i j \sum_{i=1}^Nd_{ij}z_{ij} ∑i=1Ndijzij。因此基于 X \mathbb{X} X的 Y \mathbb{Y} Y的编码损失为 ∑ j = 1 N ∑ i = 1 M d i j z i j \sum_{j=1}^N\sum_{i=1}^Md_{ij}z_{ij} ∑j=1N∑i=1Mdijzij。
(2)要求选择尽量少的原型。
若选择样本 x i \mathbf{x}_i xi,则 z i ≠ 0 \mathbf{z}_i \neq \mathbf{0} zi=0。 - 综上,优化策略为
min z i j λ ∑ i = 1 M I ( ∥ z i ∥ p ) + ∑ j = 1 N ∑ i = 1 M d i j