N+1：创新点的设计

最新推荐文章于 2024-06-27 00:49:20 发布

五道口纳什

最新推荐文章于 2024-06-27 00:49:20 发布

阅读量1.8k

点赞数

分类专栏：学术

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lanchunhui/article/details/53224409

版权

学术专栏收录该内容

15 篇文章 2 订阅

订阅专栏

定义、公式、模型、算法的提出；

0. 如何进行抽象，如何定义数学表达式

二次衰减函数；
- $f(z)=\frac{1}{z^2}$ ⇒ $f(z)=\frac1{1+z^2}$
噪声衰减因子：
- 对值域的要求，单调性的要求，必须是可调的；
- $\frac{2n}{1+2n}$ ， $n$ 是正整数，则其值域为 $[2/3, \infty)$ ，且为单调增，随着 $n$ 的增大，而逐渐趋于1；

1. 两个高维向量（数据点）的条件相似性

条件相似性：conditional similarity

两个高维向量 $x_i,x_j\in \mathbb R^N$ ， $\|x_i-x_j\|$ 为其欧氏距离，定义二者的条件相似性：

p j | i = exp ( - ∥ x i - x j ∥ 2 / 2 σ 2 i ) \sum k \neq i exp ( - ∥ x i - x k ∥ 2 / 2 σ 2 i )

$p_{j|i}=\frac{\exp\left(-\|x_i-x_j\|^2\big/2\sigma_i^2\right)}{\sum\limits_{k\neq i}\exp\left(-\|x_i-x_k\|^2\big/2\sigma_i^2\right)}$

进一步将其改造为对称版本：

p i j = p j | i + p i | j 2 N

$p_{ij}=\frac{p_{j|i}+p_{i|j}}{2N}$

2. KL-divergence

KL-divergence 应用在两个概率分布（p, q; p_{ij}, q_{ij}）之间

比如，第 1 节，我们定义了 $p_{ij}$ ，同样的我们定义另外的相似度矩阵（similarity matrix），只不过这次针对的是映射后的点，而不是原始的数据点。

q i j = f ( ∥ x i - x j ∥ ) \sum k \neq i f ( ∥ x i - x k ∥ ), with f (z) = 1 1 + z 2

$q_{ij}=\frac{f\left(\|x_i-x_j\|\right)}{\sum\limits_{k\neq i}f\left(\|x_i-x_k\|\right)}, \quad \text{with}\; f\left(z\right)=\frac{1}{1+z^2}$

显然， $p_{ij}$ 是由原始数据本身决定的，而 $q_{ij}$ 还取决于映射函数的选择。

因此，二者的 KL-divergence 为：

K L (P | | Q) = \sum i, j p i j log p i j q i j .

$KL(P||Q) = \sum_{i, j} p_{ij} \, \log \frac{p_{ij}}{q_{ij}}.$

KL-divergence 可以用来度量两个相似度矩阵（ $P,Q$ ）的距离。

3. 神经网络模型的修改方向

对目标函数进行修改：modifications in the loss function
对网络结构进行修改：modifications in the network architecture

4. 泛化

在信号处理中，稀疏性频繁地应用于，求解如下最小化问题：

arg min x 1 2 ∥ y - A x ∥ 22 + λ ∥ x ∥ 1

$\arg\min_{\mathrm x} \frac12\|\mathrm y-\mathrm {Ax}\|_2^2+\lambda\|\mathrm x\|_1$

其中：

$\mathrm x=[x(1), \cdots,x(N)]^T$
$\mathrm y=[y(1), \cdots,y(M)]^T$
$\mathrm A$ 维度为 $M\cdot N$

将待优化的目标函数泛化为：

arg min x 1 2 ∥ y - A x ∥ 22 + \sum n ϕ (x (n))

$\arg\min_{\mathrm x} \frac12\|\mathrm y-\mathrm {Ax}\|_2^2+\sum_{n}\phi(x(n))$

这里的 $\phi(\cdot)$ 指代的就是罚函数（penalty function，或者正则函数 regularization function）；

之所以一般选择 $\phi(x)=\lambda |x|$ 来激励稀疏性，与其他罚函数所不同的地方在于它是一种凸函数（convex function）。

凸函数的价值在于其能比非凸函数，更易被最优化；
然而，非凸罚函数更有益于稀疏信号的稀疏度的获取；

五道口纳什

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

五道口纳什 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。