《Dissimilarity-based sparse subset selection》论文研读笔记

ZJ_Windy_Feng

于 2020-04-20 15:44:42 发布

阅读量601

点赞数

分类专栏：论文研读笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fzj0121/article/details/105557127

版权

一、论文基本信息

1. 题目

Dissimilarity-based sparse subset selection

2. 作者

Ehsan Elhamifar, Guillermo Sapiro

3. 发表信息

TPAMI, 2015.12

二、阅读笔记

0. 摘要

研究问题：从源集（source set）中选择样本子集，使其能够充分表达目标集（target set）。
优化模型：行稀疏正则的迹最小化问题。
模型求解：引入凸松弛，采用ADMM方法进行求解。

1. 引言

1.0 概述

原型定义：选择出的具有丰富信息的样本。
视频的数据表示示例
子集选择的意义：降低算法的时间复杂度和存储复杂度。

1.1 子集选择文献综述

概述：根据原型应保留的信息类型，可将方法分为两类。
类型一： 在一个或多个低维子空间内寻找原型样本。
类型二： 基于数据间的相似性或相异性度量。
（1）优点1：对于高维数据集，相似性/相异性度量矩阵的操作更为高效。
（2）优点2：对于某些不在向量空间的数据集（如社交网络等），相似性/相异性度量已经存在，或可高效获得。
（3）存在问题：依赖初始化，对于原始问题寻找逼近求解，对于数据关系度量强加类型限制。
（4）代表方法：Kmedoids算法，AP算法， DPPs算法，次模选择方法
（5）使用相异性的方法，往往在尺度扩展性能上较差。

1.2 创新点

考虑了具有相异性度量的两个不同数据集。
可处理任意相异性度量。
可处理离群值。
基于凸规划设计算法，因而不依赖于初始化。

2. 基于相异性的稀疏子集选择

2.1 问题描述

符号描述：
（1）源集： $\mathbb{X} = \{ x_1, \dots, x_M \}$
（2）目标集： $\mathbb{Y} = \{ y_1, \dots, y_N \}$
（3）相异性矩阵：
$\mathbf{D} \triangleq \left[ \begin{matrix} \mathbf{d}_1^T \\ \vdots \\ \mathbf{d}_M^T \end{matrix}\right] = \left[ \begin{matrix} \mathbf{d}_{11} & \mathbf{d}_{12} & \cdots & \mathbf{d}_{1N} \\ \vdots & \vdots & & \vdots \\ \mathbf{d}_{M1} & \mathbf{d}_{M2} & \cdots & \mathbf{d}_{MN} \end{matrix} \right]$
给定 $\mathbf{D}$ ，从源集 $\mathbb{X}$ 中选择小规模子集，以充分表示目标集 $\mathbb{Y}$ 中的全部元素。如下图所示。
重点： 在本文中 $\mathbb{X}$ 和 $\mathbb{Y}$ 中的元素可为不同类型，如模型和数据点。下表列出各情形下相异性矩阵 $\mathbf{D}$ 的度量方法：

$\mathbb{X}$ 元素	$\mathbb{Y}$ 元素	$\mathbf{D}$ 度量方法
模型	数据点	数据通过模型表示的误差
模型	模型	动态系统距离、概率分布的KL散度
数据点	数据点	哈明距离、欧氏距离、几何距离

2.2 相异性

相异性学习方法：
（1）当 $\mathbb{X}$ 和 $\mathbb{Y}$ 为向量空间表示时，可用如下方法：
$d_{ij}=\left\| \mathbf{x}_i - \mathbf{A}\mathbf{y}_j\right\|$
$d_{ij}=\left\| \mathbf{x}_i - \mathbf{y}_j\right\|_2$
$d_{ij}=\min\left\{ \beta, \left\| \mathbf{x}_i - \mathbf{y}_j\right\|_2^2\right\}$ ，其中 $\beta$ 为常数
（2）当 $\mathbb{X}$ 和 $\mathbb{Y}$ 不在向量空间中时，可用如下方法：
社交网络图中的边际，图像间的两两主观比较，基于字符串核的句子间相似性计算等。
（3）还可通过其他度量学习方法得到。

2.3 DS3算法

2.3.0 概述

定义一基于相异性度量 $d_{ij}$ 的新变量 $z_{ij}$ 如下
$\mathbf{Z} \triangleq \left[ \begin{matrix} \mathbf{z}_1^T \\ \vdots \\ \mathbf{z}_M^T \end{matrix} \right] = \left[ \begin{matrix} z_{11} & z_{12} & \cdots & z_{1N} \\ \vdots & \vdots & & \vdots \\ z_{M1} & z_{M2} & \cdots & z_{MN} \end{matrix} \right]$
令 $z_{ij} \in \left\{0, 1\right\}$ 表示 $\mathbf{x}_i$ 是否为 $\mathbf{y}_j$ 的原型（1为是，0为否）。此外，为确保每个 $\mathbf{y}_j$ 仅有一个原型，则 $\mathbf{Z}$ 的每列之和应为1，即 $\sum_{i=1}^Nz_{ij}=1$ 。

2.3.1 同时进行的基于稀疏恢复的优化

优化目的
（1）要求原型能够较好的表示目标集 $\mathbb{Y}$ 中的元素。
若 $\mathbf{x}_i$ 是表示 $\mathbf{y}_j$ 的原型，则该项的编码损失为 $d_{ij}z_{ij}\in \left\{ 0, d_{ij} \right\}$ 。
则基于 $\mathbb{X}$ 的 $\mathbf{y}_j$ 的编码损失为 $\sum_{i=1}^Nd_{ij}z_{ij}$ 。因此基于 $\mathbb{X}$ 的 $\mathbb{Y}$ 的编码损失为 $\sum_{j=1}^N\sum_{i=1}^Md_{ij}z_{ij}$ 。
（2）要求选择尽量少的原型。
若选择样本 $\mathbf{x}_i$ ，则 $\mathbf{z}_i \neq \mathbf{0}$ 。
综上，优化策略为

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
《Dissimilarity-based sparse subset selection》论文研读笔记

一、论文基本信息1. 题目Dissimilarity-based sparse subset selection2. 作者Ehsan Elhamifar, Guillermo Sapiro3. 发表信息TPAMI, 2015.12二、阅读笔记2.0 摘要研究问题：从源集（source set）中选择样本子集，使其能够充分表达目标集（target set）。优化模型：行稀疏正则...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。