《Dissimilarity-based sparse subset selection》论文研读笔记

一、论文基本信息

1. 题目

Dissimilarity-based sparse subset selection

2. 作者

Ehsan Elhamifar, Guillermo Sapiro

3. 发表信息

TPAMI, 2015.12

二、阅读笔记

0. 摘要

  1. 研究问题:从源集(source set)中选择样本子集,使其能够充分表达目标集(target set)。
  2. 优化模型:行稀疏正则的迹最小化问题。
  3. 模型求解:引入凸松弛,采用ADMM方法进行求解。

1. 引言

1.0 概述

  1. 原型定义:选择出的具有丰富信息的样本。
  2. 视频的数据表示示例
    在这里插入图片描述
  3. 子集选择的意义:降低算法的时间复杂度和存储复杂度。

1.1 子集选择文献综述

  1. 概述:根据原型应保留的信息类型,可将方法分为两类。
  2. 类型一: 在一个或多个低维子空间内寻找原型样本。
  3. 类型二: 基于数据间的相似性或相异性度量。
    (1)优点1:对于高维数据集,相似性/相异性度量矩阵的操作更为高效。
    (2)优点2:对于某些不在向量空间的数据集(如社交网络等),相似性/相异性度量已经存在,或可高效获得。
    (3)存在问题:依赖初始化,对于原始问题寻找逼近求解,对于数据关系度量强加类型限制。
    (4)代表方法:Kmedoids算法,AP算法, DPPs算法,次模选择方法
    (5)使用相异性的方法,往往在尺度扩展性能上较差。

1.2 创新点

  1. 考虑了具有相异性度量的两个不同数据集。
  2. 可处理任意相异性度量。
  3. 可处理离群值。
  4. 基于凸规划设计算法,因而不依赖于初始化。

2. 基于相异性的稀疏子集选择

2.1 问题描述

  1. 符号描述:
    (1)源集: X = { x 1 , … , x M } \mathbb{X} = \{ x_1, \dots, x_M \} X={ x1,,xM}
    (2)目标集: Y = { y 1 , … , y N } \mathbb{Y} = \{ y_1, \dots, y_N \} Y={ y1,,yN}
    (3)相异性矩阵:
    D ≜ [ d 1 T ⋮ d M T ] = [ d 11 d 12 ⋯ d 1 N ⋮ ⋮ ⋮ d M 1 d M 2 ⋯ d M N ] \mathbf{D} \triangleq \left[ \begin{matrix} \mathbf{d}_1^T \\ \vdots \\ \mathbf{d}_M^T \end{matrix}\right] = \left[ \begin{matrix} \mathbf{d}_{11} & \mathbf{d}_{12} & \cdots & \mathbf{d}_{1N} \\ \vdots & \vdots & & \vdots \\ \mathbf{d}_{M1} & \mathbf{d}_{M2} & \cdots & \mathbf{d}_{MN} \end{matrix} \right] Dd1TdMT=d11dM1d12dM2d1NdMN
  2. 给定 D \mathbf{D} D,从源集 X \mathbb{X} X中选择小规模子集,以充分表示目标集 Y \mathbb{Y} Y中的全部元素。如下图所示。
    在这里插入图片描述
  3. 重点: 在本文中 X \mathbb{X} X Y \mathbb{Y} Y中的元素可为不同类型,如模型和数据点。下表列出各情形下相异性矩阵 D \mathbf{D} D的度量方法:
X \mathbb{X} X元素 Y \mathbb{Y} Y元素 D \mathbf{D} D度量方法
模型 数据点 数据通过模型表示的误差
模型 模型 动态系统距离、概率分布的KL散度
数据点 数据点 哈明距离、欧氏距离、几何距离

2.2 相异性

  1. 相异性学习方法:
    (1)当 X \mathbb{X} X Y \mathbb{Y} Y为向量空间表示时,可用如下方法:
    d i j = ∥ x i − A y j ∥ d_{ij}=\left\| \mathbf{x}_i - \mathbf{A}\mathbf{y}_j\right\| dij=xiAyj
    d i j = ∥ x i − y j ∥ 2 d_{ij}=\left\| \mathbf{x}_i - \mathbf{y}_j\right\|_2 dij=xiyj2
    d i j = min ⁡ { β , ∥ x i − y j ∥ 2 2 } d_{ij}=\min\left\{ \beta, \left\| \mathbf{x}_i - \mathbf{y}_j\right\|_2^2\right\} dij=min{ β,xiyj22},其中 β \beta β为常数
    (2)当 X \mathbb{X} X Y \mathbb{Y} Y不在向量空间中时,可用如下方法:
    社交网络图中的边际,图像间的两两主观比较,基于字符串核的句子间相似性计算等。
    (3)还可通过其他度量学习方法得到。

2.3 DS3算法

2.3.0 概述
  1. 定义一基于相异性度量 d i j d_{ij} dij的新变量 z i j z_{ij} zij如下
    Z ≜ [ z 1 T ⋮ z M T ] = [ z 11 z 12 ⋯ z 1 N ⋮ ⋮ ⋮ z M 1 z M 2 ⋯ z M N ] \mathbf{Z} \triangleq \left[ \begin{matrix} \mathbf{z}_1^T \\ \vdots \\ \mathbf{z}_M^T \end{matrix} \right] = \left[ \begin{matrix} z_{11} & z_{12} & \cdots & z_{1N} \\ \vdots & \vdots & & \vdots \\ z_{M1} & z_{M2} & \cdots & z_{MN} \end{matrix} \right] Zz1TzMT=z11zM1z12zM2z1NzMN
    z i j ∈ { 0 , 1 } z_{ij} \in \left\{0, 1\right\} zij{ 0,1}表示 x i \mathbf{x}_i xi是否为 y j \mathbf{y}_j yj的原型(1为是,0为否)。此外,为确保每个 y j \mathbf{y}_j yj仅有一个原型,则 Z \mathbf{Z} Z的每列之和应为1,即 ∑ i = 1 N z i j = 1 \sum_{i=1}^Nz_{ij}=1 i=1Nzij=1
2.3.1 同时进行的基于稀疏恢复的优化
  1. 优化目的
    (1)要求原型能够较好的表示目标集 Y \mathbb{Y} Y中的元素。
    x i \mathbf{x}_i xi是表示 y j \mathbf{y}_j yj的原型,则该项的编码损失为 d i j z i j ∈ { 0 , d i j } d_{ij}z_{ij}\in \left\{ 0, d_{ij} \right\} dijzij{ 0,dij}
    则基于 X \mathbb{X} X y j \mathbf{y}_j yj的编码损失为 ∑ i = 1 N d i j z i j \sum_{i=1}^Nd_{ij}z_{ij} i=1Ndijzij。因此基于 X \mathbb{X} X Y \mathbb{Y} Y的编码损失为 ∑ j = 1 N ∑ i = 1 M d i j z i j \sum_{j=1}^N\sum_{i=1}^Md_{ij}z_{ij} j=1Ni=1Mdijzij
    (2)要求选择尽量少的原型。
    若选择样本 x i \mathbf{x}_i xi,则 z i ≠ 0 \mathbf{z}_i \neq \mathbf{0} zi=0
  2. 综上,优化策略为
    min ⁡ z i j λ ∑ i = 1 M I ( ∥ z i ∥ p ) + ∑ j = 1 N ∑ i = 1 M d i j
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Machine learning is currently a vast area of research with applications in a broad range of fields such as computer vision, bioinformatics, information retrieval, natural language processing, audio processing, data mining, and many others. Among the variety of state-of-the-art machine learning approaches for such applications are the similarity-based learning methods. Learning based on similarity refers to the process of learning based on pairwise similarities between the training samples. The similarity-based learning process can be both supervised and unsupervised, and the pairwise relationship can be either a similarity, a dissimilarity, or a distance function. This book studies several similarity-based learning approaches, such as nearest neighbor models, local learning, kernel methods, and clustering algorithms. A nearest neighbor model based on a novel dissimilarity for images is presented in this book. It is used for handwritten digit recognition and achieves impressive results. Kernel methods are used in several tasks investigated in this book. First, a novel kernel for visual word histograms is presented. It achieves state-of-the-art performance for object recognition in images. Several kernels based on a pyramid representation are presented next. They are used for facial expression recognition from static images. The same pyramid representation is successfully used for text categorization by topic. Moreover, an approach based on string kernels for native language identification is also presented in this work. The approach achieves state-of-the-art performance levels, while being language independent and theory neutral. An interesting pattern can already be observed, namely that the machine learning tasks approached in this book can be divided into two different areas: computer vision and string processing. Despite the fact that computer vision and string processing seem to be unrelated fields of study, image analysis and string processing are in some ways

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值