- 定义、公式、模型、算法的提出;
0. 如何进行抽象,如何定义数学表达式
- 二次衰减函数;
- f(z)=1z2 ⇒ f(z)=11+z2
- 噪声衰减因子:
- 对值域的要求,单调性的要求,必须是可调的;
-
2n1+2n
,
n
是正整数,则其值域为
[2/3,∞) ,且为单调增,随着 n 的增大,而逐渐趋于1;
1. 两个高维向量(数据点)的条件相似性
- 条件相似性:conditional similarity
两个高维向量
进一步将其改造为对称版本:
2. KL-divergence
KL-divergence 应用在两个概率分布(p, q; p_{ij}, q_{ij})之间
比如,第 1 节,我们定义了 pij ,同样的我们定义另外的相似度矩阵(similarity matrix),只不过这次针对的是映射后的点,而不是原始的数据点。
显然, pij 是由原始数据本身决定的,而 qij 还取决于映射函数的选择。
因此,二者的 KL-divergence 为:
KL-divergence 可以用来度量两个相似度矩阵( P,Q )的距离。
3. 神经网络模型的修改方向
- 对目标函数进行修改:modifications in the loss function
- 对网络结构进行修改:modifications in the network architecture
4. 泛化
在信号处理中,稀疏性频繁地应用于,求解如下最小化问题:
其中:
- x=[x(1),⋯,x(N)]T
- y=[y(1),⋯,y(M)]T
- A 维度为 M⋅N
将待优化的目标函数泛化为:
这里的 ϕ(⋅) 指代的就是罚函数(penalty function,或者正则函数 regularization function);
之所以一般选择 ϕ(x)=λ|x| 来激励稀疏性,与其他罚函数所不同的地方在于它是一种凸函数(convex function)。
- 凸函数的价值在于其能比非凸函数,更易被最优化;
- 然而,非凸罚函数更有益于稀疏信号的稀疏度的获取;