论文导读：使用松弛半定规划的方法进行数据降维--通过最大最小距离

最新推荐文章于 2024-05-04 23:15:48 发布

我叫噗噗噗

最新推荐文章于 2024-05-04 23:15:48 发布

阅读量931

点赞数 5

分类专栏：论文导读文章标签：数据分析

本文链接：https://blog.csdn.net/share727186630/article/details/108238042

版权

论文导读专栏收录该内容

1 篇文章 0 订阅

订阅专栏

论文导读：使用半定规划的方法进行数据降维--通过最大最小距离[Max-min distance analysis by using sequential SDP relaxation for dimension reduction]

1. 系统模型
- 1.1数学表示
- 1.2优化模型

可能是全网第一篇讲解此篇论文的博客

本文旨在记录阅读文献时的想法，并不适合小白，有一定数据降维经验的小伙伴会更快上手。
原文地址：Max-min distance analysis by using sequential SDP relaxation for dimension reduction
本文的目的是实现数据降维，需要首先了解普通的PCA和LDA[Linear discriminate analysis]的算法。
LDA的算法是通过最大化类与类之间的距离和最小化同类之间的方差为目标的算法。目标函数设定为 $\text{objective} : min \frac{W^TS_{b}W}{W^TS_{w}W}$
具体的请移步：LDA

1. 系统模型

本文的方法提出一个新的优化目标：最大化类别间的最小距离。根据木桶原理，分类的性能瓶颈肯定受限于最小的距离的两个类别。最小的距离被优化了，那么整体的性能肯定会得到优化。
设定好了目标函数以后我们可以显式的把优化问题表达出来：
考虑一个 $C$ 种类别的分类问题，假设每一个类别之内的数据点的分布都是同样方差(不同也没有关系)的高斯分布。大概如下如图所示：
同方差的3类分布
对于每一个 $\omega_i$ 类别都有条件分布 $p(\bold{x}|\omega_i)=\mathcal N(\mathbf{\mu_i,\Sigma|\omega_i})$ ,其中 $\bold{x}\in\mathbb{R}^m$ , $\mathbf{y}=\bold{W}^T\bold{x}\in\mathbb{R}^{{d}}$ ,其中 $\bold{W}\in\mathbb{R}^{m\times{d}}$ ， $\bold{x}$ 是原数据向量， $\bold{y}$ 是降维后的数据向量， $\bold{W}$ 是降维矩阵。此处原文章出错

1.1数学表示

每个类别间的数据的方差可以随意假设，文章中假设 $\bold{\Sigma}=\bold{I}$ ,现在 $\omega_i$ 和 $\omega_j$ 两个类别的中心距离变成了
$\begin{aligned} \Delta(\omega_i,\omega_j|\bold{W})&=tr(\bold{W}^T\bold{D}_{ij}\bold{W})\\subject\;{to}\bold{W}^T\bold{W}&=\bold{I}_d \end{aligned}$
$\bold{W}^T\bold{W}=\bold{I}_d$ 是为了让 $\mathbf{W}$ 单位化，其中 $\bold{D}_{ij}$ 是矩阵: $\bold{D}_{ij}=(\mu_i-\mu_j)(\mu_i-\mu_j)^T,$
这个矩阵被称为类别 $\omega_i$ 和 $\omega_j$ 的距离矩阵，这个矩阵的迹就是未变换前的两个类别中心的距离了。变换后的迹既是: $tr(\bold{W}^T\bold{D}_{ij}\bold{W})=\|\bold{W^T(\mu_i-\mu_j)}\|^2.$
我们的优化目标便是这个了，找到所有类别中心距离最短的距离MMDA(Max-min distance analysis): $\underset{\bold{W}^T\bold{W}=\bold{I}_d}{\text{max}} \quad \underset{1\leq{i}\leq{j}\leq{C}}{\text{min}}\quad\Delta(\omega_i,\omega_j|\bold{W})。$
这乍一看，这个优化问题咋做啊，无从下手啊，每次都遍历一边吗，怎么求导啊？别着急，聪明的作者做了一个变形。

1.2优化模型

引入一个辅助变量 $t$ ，令 $t={\text{min}\quad\underset{1 \leq {i} < j \leq {c}}\Delta(\omega_i,\omega_j|\bold{W})}，$ 这样模型就变成了
$\begin{aligned} \text{max}\quad& t\\ \text{s.t.}\quad&Tr(\bold{D}_{ij}\mathbf{X})\geq{t},1\leq{i}<j\leq{C}. \end{aligned}$
诶，这样一看是不是问题有点头绪了，学习过凸优化的同学应该能看出来这好像是半定规划的问题。但是半定规划有一个 $\bold{X}\succeq\mathbf{0}$ 啊。这里需要嘛？而且这里好像对 $\bold{X}$ 的限制没有体现出 $\bold{W}^T\bold{W}=\bold{I}_d$ 。
你想得没错，这里需要插入一条引理

如果 $\Omega_1是这样的集合：\Omega_1=\{\mathbf{X}|\mathbf{X}=\mathbf{W}\mathbf{W^T},\mathbf{W^T}\mathbf{W}=\bold{I}_d\}，而\Omega_2=\{\mathbf{X}|Tr(\mathbf{X})=d,\mathbf{0}\preceq\mathbf{X}\preceq{\mathbf{I}}\}$ 。那么 $\Omega_2$ 是 $\Omega_1$ 的最小凸包， $\Omega_1$ 是 $\Omega_2$ 的极点

什么？你不知道什么是极点，什么是凸包？自己百度去。好吧，集合的极点就是不能集合中其他的点线性表示出来的点，凸包就是包含此集合的最小凸集。所以引理1的证明非常直观，直接用定义即可。 $\Omega_1$ 和 $\Omega_2$ 的本质差在哪？
$\Omega_1$ 规定了 $rank(\bold{X})=d$ ,而 $\Omega_2$ 没有做此规定，所以 $\Omega_2$ 中的 $X$ 的rank可以是 $1\leq rank(\bold{X})\leq{m}$ 。
怎么证明引理1呢？我给出一个不严谨的证明

$\Omega_1\subseteq\Omega_2$ 很明显，并且很明显 $rank(\bold{X})\not =d$ 的 $X_1$ , $X_2\in\Omega_2$ 的线性组合不可能表示成 $rank(\bold{X}) =d$ 且 $Tr(\bold{X})=d$
还是给出一个证明吧，写这玩意太费时了

好了，此时的可行域变大了，可行域从极点变成了凸包，这就是我们文章中松弛所在的地方。这时松弛的优化问题变成了
$\begin{aligned} \text{min}\quad&-t\\ s.t\quad&tr(\bold{A}_{ij}\bold{X})\geq t\quad1\leq{i}<j\leq{C}\\ &tr{(\bold{X})}=d\\ &0\preceq\bold{X}\preceq\bold{I} \end{aligned}$
这是不是一个标准的SDP(semidefinte programming)问题?
啥？你不知道啥是SDP？这里简单的说一下SDP的标准形式吧

$\begin{aligned} {minimize} \quad& \mathbf {tr}(CX) \\ {subject\quad to}\quad& \mathbf{tr}(A_iX) = b_i, \quad i=1,\ldots,p \\ & X \succeq 0, \end{aligned}$

不会吧不会吧，不会到了这一步还有人不知道怎么把问题变成标准的SDP形式吧。没办法了，我只好写得详细一些
$\begin{aligned} 111 \end{aligned}$

我叫噗噗噗

关注

5
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
论文导读：使用松弛半定规划的方法进行数据降维--通过最大最小距离

论文导读：使用半定规划的方法进行数据降维–通过最大最小距离[Max-min distance analysis by using sequential SDP relaxation for dimension reduction]本文旨在记录阅读文献时的想法，并不适合小白，有一定数据降维经验的小伙伴会更快上手。原文地址：Max-min distance analysis by using sequential SDP relaxation for dimension reduction本文的目的是实现
复制链接

扫一扫

专栏目录