习题提示
11.1:
直接用【西瓜书11.2节】的Relief过滤式特征选择方法。
11.2:
参见11.2 过滤式选择(“近墨者黑”,近多少?)第二部分“Relief是处理二分类问题,将其推广到处理多分类问题,即为Relief-F”的讨论。
11.3:
参见11.2 过滤式选择(“近墨者黑”,近多少?)中最后一段的描述。
11.4:
对LVW算法加一个总时长控制:
t
t
<
T
T
tt<TT
tt<TT(为与算法中的
t
,
T
t,T
t,T区别,这里用双写),即【西瓜书图11.1 】算法中:
增加输入 T T TT TT;第4至5句间插入初始化: t t = 0 tt=0 tt=0;第16至17句间插入: t t = t t + 1 ; i f ( t t = = T T ) r e t u r n ; tt=tt+1;if(tt==TT)return; tt=tt+1;if(tt==TT)return;
11.5:
考虑二维情况,岭回归【西瓜书(11.6)】中的第一项为二次曲线C:
f
(
w
1
,
w
2
)
=
(
y
−
(
w
1
x
1
+
w
2
x
2
)
)
2
\begin{align} f(w_1,w_2)=(y-(w_1x_1+w_2x_2))^2 \tag{1} \end{align}
f(w1,w2)=(y−(w1x1+w2x2))2(1)
其黑塞矩阵为:
(
∂
2
f
∂
w
1
2
∂
2
f
∂
w
1
∂
w
2
∂
2
f
∂
w
2
∂
w
1
∂
2
f
∂
w
2
2
)
=
2
(
x
1
2
x
1
x
2
x
1
x
2
x
2
2
)
\begin{align} \begin{pmatrix} \frac{{\partial}^2f }{{\partial}w_1^2}&\frac{{\partial}^2f }{{\partial}w_1{\partial}w_2}\\ \frac{{\partial}^2f }{{\partial}w_2{\partial}w_1}&\frac{{\partial}^2f }{{\partial}w_2^2} \end{pmatrix} =2 \begin{pmatrix} x_1^2&x_1x_2\\ x_1x_2&x_2^2 \end{pmatrix} \tag{2} \end{align}
(∂w12∂2f∂w2∂w1∂2f∂w1∂w2∂2f∂w22∂2f)=2(x12x1x2x1x2x22)(2)
显然,它是半正定的,我们取正定,由凸函数的判定定理知,二次曲线C式(1)是凸的,即【西瓜书图11.2】所示合理,故C的等值线(簇)既会与
L
1
L_1
L1的等值线相交于一点,也会与
L
2
L_2
L2的等值线相交于一点,即交点不会在坐标轴上???,即得到的不是稀疏解。
11.6:
比较【西瓜书(11.6)】(岭回归)和【西瓜书(6.8)】(支持向量机的拉格朗日函数),有:
1、均有
∣
∣
w
∣
∣
2
||\boldsymbol{w} ||^2
∣∣w∣∣2项,即
L
2
L_2
L2的平方;
2、 均有和式项;
3、和式项中一个是二次项,一个是一次项;
4、岭回归为二次曲线与圆相切,支持向量机的情形则是直线与圆相切。
11.7:
∣
∣
x
∣
∣
0
||\boldsymbol{x} ||_0
∣∣x∣∣0为向量
x
\boldsymbol{x}
x中非零元素的个数(没有解析表达式)。 采用它进行正则化,则:
min
x
f
(
x
)
+
λ
∣
∣
x
∣
∣
0
\begin{align} \mathop{\min}\limits_{\boldsymbol{x}}f(\boldsymbol{x})+\lambda ||\boldsymbol{x} ||_0 \tag{3} \end{align}
xminf(x)+λ∣∣x∣∣0(3)
它有两方面的自由度:
-其值
k
k
k;
-非零元素的位置。
若采用近端梯度下降的思路,则转化为:
x
k
+
1
=
arg
min
x
L
2
∣
∣
x
−
z
∣
∣
2
2
+
λ
∣
∣
x
∣
∣
0
\begin{align} \boldsymbol{x}_{k+1}=\mathop{\arg\min}\limits_{\boldsymbol{x}}\,\frac{L}{2}||\boldsymbol{x}-\boldsymbol{z}||_2^2+\lambda ||\boldsymbol{x} ||_0 \tag{4} \end{align}
xk+1=xargmin2L∣∣x−z∣∣22+λ∣∣x∣∣0(4)
其中,
L
,
z
L,\boldsymbol{z}
L,z为已知,
λ
\lambda
λ为参数,由于约束项
∣
∣
x
∣
∣
0
||\boldsymbol{x} ||_0
∣∣x∣∣0不能解析表达,故式(4)求解问题,将其转化为
∣
∣
x
∣
∣
1
||\boldsymbol{x} ||_1
∣∣x∣∣1,即得到【西瓜书(11.13)】。
11.8:
参见11.4 嵌入式选择与L1正则化(将特征选择嵌入到优化算法中,以LASSO算法为代表)中式(11.14)
的推导过程。
11.9:
有如下几点:
1、二者都是以
L
1
L_1
L1替代
L
0
L_0
L0;
2、二者在求解过程中均用到LASSO的PGD解法;
3、稀疏性使得【西瓜书(11.18)】中的
E
i
\mathbf{E}_i
Ei易于进行奇异值分解;
4、压缩感知需要符合K-RIP条件【西瓜书(11.21)】。
11.10:
在第10章讨论LLE时,就是一种分组(依近邻
Q
i
Q_i
Qi),现在固定字典集(编码矩阵):
D
=
{
d
j
}
j
=
1
D
\mathcal{D} =\{\boldsymbol{d}_j\}_{j=1}^{D}
D={dj}j=1D(
d
j
\boldsymbol{d}_j
dj为列向量),对一组样本
{
x
i
}
,
i
∈
G
\{\boldsymbol{x}_i\},i\in \mathcal{G}
{xi},i∈G,求符合要求的编码集
{
α
i
}
\{\boldsymbol{\alpha }^i\}
{αi},从而使得
A
=
{
α
j
}
j
=
1
∣
D
∣
\mathcal{A} =\{\boldsymbol{\alpha}_j\}_{j=1}^{|D|}
A={αj}j=1∣D∣。
min
A
Q
(
A
,
G
,
D
)
=
1
2
∑
i
∈
G
∣
∣
x
i
−
D
α
i
∣
∣
2
2
+
λ
∑
j
=
1
∣
D
∣
∣
∣
α
j
∣
∣
p
=
1
2
∑
i
∈
G
∣
∣
x
i
−
∑
j
=
1
∣
D
∣
α
j
i
d
j
∣
∣
2
2
+
λ
∑
j
=
1
∣
D
∣
∣
∣
α
j
∣
∣
p
s
.
t
。
∀
j
:
[
(
α
j
i
>
0
,
∀
i
)
o
r
(
α
j
i
=
0
,
∀
i
)
]
\begin{align} \mathop{\min}\limits_{\mathcal{A} }Q(\mathcal{A} ,\mathcal{G} ,\mathcal{D} ) &=\frac{1}{2}\sum_{i\in \mathcal{G} }||\boldsymbol{x}_i-D\boldsymbol{\alpha}^i||_2^2+\lambda\sum_{j=1}^{|D|}||\boldsymbol{\alpha}_j||_p\notag\\ &=\frac{1}{2}\sum_{i\in \mathcal{G} }\bigg|\bigg|\boldsymbol{x}_i-\sum_{j=1}^{|D|}{\alpha}_j^i\boldsymbol{d}_j\bigg|\bigg|_2^2+\lambda\sum_{j=1}^{|D|}||\boldsymbol{\alpha}_j||_p \tag{5}\\ &\qquad s.t。 \forall j:[({\alpha}_j^i>0,\forall i)or({\alpha}_j^i=0,\forall i)]\notag \end{align}
AminQ(A,G,D)=21i∈G∑∣∣xi−Dαi∣∣22+λj=1∑∣D∣∣∣αj∣∣p=21i∈G∑
xi−j=1∑∣D∣αjidj
22+λj=1∑∣D∣∣∣αj∣∣ps.t。∀j:[(αji>0,∀i)or(αji=0,∀i)](5)
约束条件表示该组样本编码后,每一个特征具有捆绑关系,即要么全为0,要么全为正(负)。
采用变量交替(逐列更新)方法求解,即求 α r \boldsymbol{\alpha}_r αr时,将其余列视为常数。
为求
α
r
\boldsymbol{\alpha}_r
αr,将其从
Q
(
A
,
G
,
D
)
Q(\mathcal{A} ,\mathcal{G} ,\mathcal{D} )
Q(A,G,D)中分离出来:
Q
(
α
r
)
=
1
2
∑
i
∈
G
∣
∣
x
i
−
∑
j
≠
r
∣
D
∣
α
j
i
d
j
−
α
r
i
d
r
∣
∣
2
2
+
λ
∣
∣
α
r
∣
∣
p
+
λ
∑
j
≠
r
∣
D
∣
∣
∣
α
j
∣
∣
p
=
∑
i
∈
G
(
∑
j
≠
r
∣
D
∣
α
j
i
α
r
i
d
j
T
d
r
−
α
r
i
x
i
T
d
r
+
1
2
α
r
i
2
∣
∣
d
r
∣
∣
2
)
+
λ
∣
∣
α
r
∣
∣
p
+
(与
α
r
无关的项)
\begin{align} Q(\boldsymbol{\alpha}_r ) &=\frac{1}{2}\sum_{i\in \mathcal{G} }\bigg|\bigg|\boldsymbol{x}_i-\sum_{j\neq r}^{|D|}{\alpha}_j^i\boldsymbol{d}_j-{\alpha}_r^i\boldsymbol{d}_r\bigg|\bigg|_2^2+\lambda||\boldsymbol{\alpha}_r||_p+\lambda\sum_{j\neq r}^{|D|}||\boldsymbol{\alpha}_j||_p\notag\\ &=\sum_{i\in \mathcal{G} }\left(\sum_{j\neq r}^{|D|}{\alpha}_j^i{\alpha}_r^i\boldsymbol{d}^{\mathrm{T}}_j\boldsymbol{d}_r-{\alpha}_r^i\boldsymbol{x}^{\mathrm{T}}_i\boldsymbol{d}_r+\frac{1}{2}{{\alpha}_r^i}^2||\boldsymbol{d}_r||^2\right) +\lambda||\boldsymbol{\alpha}_r||_p\notag\\ &\quad +\text{(与$\boldsymbol{\alpha}_r$无关的项)} \tag{6} \end{align}
Q(αr)=21i∈G∑
xi−j=r∑∣D∣αjidj−αridr
22+λ∣∣αr∣∣p+λj=r∑∣D∣∣∣αj∣∣p=i∈G∑
j=r∑∣D∣αjiαridjTdr−αrixiTdr+21αri2∣∣dr∣∣2
+λ∣∣αr∣∣p+(与αr无关的项)(6)
∂
Q
(
α
r
)
∂
α
r
i
=
−
μ
r
i
+
α
r
i
∣
∣
d
r
∣
∣
2
+
λ
∂
∂
α
r
i
∣
∣
α
r
∣
∣
p
\begin{align} \frac{\partial Q(\boldsymbol{\alpha}_r )} {\partial {\alpha}_r^i} =-{\mu }_r^i+{\alpha}_r^i||\boldsymbol{d}_r||^2+\lambda\frac{\partial} {\partial {\alpha}_r^i}||\boldsymbol{\alpha}_r||_p \tag{7} \end{align}
∂αri∂Q(αr)=−μri+αri∣∣dr∣∣2+λ∂αri∂∣∣αr∣∣p(7)
其中,
μ
r
i
=
−
∑
j
≠
r
∣
D
∣
α
j
i
d
j
T
d
r
+
x
i
T
d
r
{\mu }_r^i=-\sum_{j\neq r}^{|D|}{\alpha}_j^i\boldsymbol{d}^{\mathrm{T}}_j\boldsymbol{d}_r+\boldsymbol{x}^{\mathrm{T}}_i\boldsymbol{d}_r
μri=−∑j=r∣D∣αjidjTdr+xiTdr
情形1:取
p
=
1
p=1
p=1
∂
∂
α
r
i
∣
∣
α
r
∣
∣
p
=
∂
∂
α
r
i
[
∣
α
r
i
∣
+
(与
α
r
i
无关的项)
]
=
1
o
r
0
(因
α
r
i
⩾
0
)
\begin{align} \frac{\partial} {\partial {\alpha}_r^i}||\boldsymbol{\alpha}_r||_p &=\frac{\partial} {\partial {\alpha}_r^i}[| {\alpha}_r^i|+\text{(与${\alpha}_r^i$无关的项)}]\notag\\ &=1\ or\ 0\qquad \text{(因${\alpha}_r^i\geqslant 0$)} \tag{8} \end{align}
∂αri∂∣∣αr∣∣p=∂αri∂[∣αri∣+(与αri无关的项)]=1 or 0(因αri⩾0)(8)
本应找
∂
Q
(
α
r
)
∂
α
r
i
=
0
\frac{\partial Q(\boldsymbol{\alpha}_r )} {\partial {\alpha}_r^i}=0
∂αri∂Q(αr)=0,但不一定能找到,求其次:让其尽量接近于0,即考虑何时达到目标
min
α
r
i
∣
∂
Q
(
α
r
)
∂
α
r
i
∣
\mathop{\min}\limits_{{\alpha}_r^i}\bigg|\frac{\partial Q(\boldsymbol{\alpha}_r )} {\partial {\alpha}_r^i}\bigg|
αrimin
∂αri∂Q(αr)
。
∂
Q
(
α
r
)
∂
α
r
i
=
−
μ
r
i
+
α
r
i
∣
∣
d
r
∣
∣
2
+
λ
[
1
o
r
0
]
=
α
r
i
∣
∣
d
r
∣
∣
2
+
[
(
λ
o
r
0
)
−
μ
r
i
]
\begin{align} \frac{\partial Q(\boldsymbol{\alpha}_r )} {\partial {\alpha}_r^i} &=-{\mu }_r^i+{\alpha}_r^i||\boldsymbol{d}_r||^2+\lambda[1\ or\ 0]\notag\\ &={\alpha}_r^i||\boldsymbol{d}_r||^2+[(\lambda\ or\ 0)-{\mu }_r^i ] \tag{9} \end{align}
∂αri∂Q(αr)=−μri+αri∣∣dr∣∣2+λ[1 or 0]=αri∣∣dr∣∣2+[(λ or 0)−μri](9)
(1)当
[
0
−
μ
r
i
]
>
0
[0-{\mu }_r^i ]>0
[0−μri]>0时,又
α
r
i
⩾
0
{\alpha}_r^i\geqslant 0
αri⩾0,即当
α
r
i
=
0
{\alpha}_r^i=0
αri=0时达到目标;\
(2)当
[
λ
−
μ
r
i
]
>
0
[\lambda-{\mu }_r^i ]>0
[λ−μri]>0时,即
μ
r
i
<
λ
{\mu }_r^i<\lambda
μri<λ,即当
α
r
i
=
0
{\alpha}_r^i=0
αri=0时达到目标;\
(3)当
[
λ
−
μ
r
i
]
⩽
0
[\lambda-{\mu }_r^i ]\leqslant 0
[λ−μri]⩽0时,即
μ
r
i
⩾
λ
{\mu }_r^i\geqslant \lambda
μri⩾λ,即当
α
r
i
=
μ
r
i
−
λ
∣
∣
d
r
∣
∣
2
{\alpha}_r^i=\frac{{\mu}_r^i-\lambda }{||\boldsymbol{d}_r||^2}
αri=∣∣dr∣∣2μri−λ时达到目标;
综合(1)(2)(3),其中,(1)包含了
μ
r
i
=
0
{\mu}_r^i=0
μri=0,故(2)(3)中可限定
μ
r
i
>
0
{\mu}_r^i>0
μri>0,记
(
μ
r
i
)
+
=
max
{
0
,
μ
r
i
}
({\mu}_r^i)^+=\max\{0,{\mu}_r^i\}
(μri)+=max{0,μri}
α
r
i
=
{
0
,
(
w
h
e
n
(
μ
r
i
)
+
⩽
λ
)
(
μ
r
i
)
+
−
λ
∣
∣
d
r
∣
∣
2
,
(
o
t
h
e
r
w
i
s
e
)
\begin{align} {\alpha}_r^i= \begin{cases} 0,\qquad (when ({\mu}_r^i)^+\leqslant \lambda)\\ \frac{({\mu}_r^i)^+-\lambda }{||\boldsymbol{d}_r||^2},\quad (otherwise)\\ \end{cases} \tag{10} \end{align}
αri={0,(when(μri)+⩽λ)∣∣dr∣∣2(μri)+−λ,(otherwise)(10)
情形2:取 p = 2 p=2 p=2
虽然
α
r
i
{\alpha}_r^i
αri不易从
∣
∣
α
r
∣
∣
2
||\boldsymbol{\alpha}_r||_2
∣∣αr∣∣2中分离,整体反而方便:
∂
∣
∣
α
r
∣
∣
2
∂
α
r
=
α
r
∣
∣
α
r
∣
∣
\begin{align} \frac{\partial ||\boldsymbol{\alpha}_r||_2} {\partial \boldsymbol{\alpha}_r} =\frac{ \boldsymbol{\alpha}_r} { ||\boldsymbol{\alpha}_r||} \tag{11} \end{align}
∂αr∂∣∣αr∣∣2=∣∣αr∣∣αr(11)
其中,省略了
L
2
L_2
L2的标识(下同)。
∂
Q
∂
α
r
=
∣
∣
d
r
∣
∣
2
α
r
−
μ
r
+
λ
α
r
∣
∣
α
r
∣
∣
\begin{align} \frac{\partial Q} {\partial \boldsymbol{\alpha}_r} =||\boldsymbol{d}_r||^2\boldsymbol{\alpha}_r-\boldsymbol{\mu}_r+\lambda\frac{ \boldsymbol{\alpha}_r} { ||\boldsymbol{\alpha}_r||} \tag{12} \end{align}
∂αr∂Q=∣∣dr∣∣2αr−μr+λ∣∣αr∣∣αr(12)
令
∂
Q
∂
α
r
=
0
\frac{\partial Q} {\partial \boldsymbol{\alpha}_r} =0
∂αr∂Q=0,则:
α
r
=
(
∣
∣
d
r
∣
∣
2
+
λ
∣
∣
α
r
∣
∣
)
−
1
μ
r
=
S
r
μ
r
\begin{align} \boldsymbol{\alpha}_r &=(||\boldsymbol{d}_r||^2+\frac{ \lambda} { ||\boldsymbol{\alpha}_r||})^{-1} \boldsymbol{\mu}_r\notag\\ &=S_r\boldsymbol{\mu}_r \tag{13} \end{align}
αr=(∣∣dr∣∣2+∣∣αr∣∣λ)−1μr=Srμr(13)
其中:
S
r
=
(
∣
∣
d
r
∣
∣
2
+
λ
∣
∣
α
r
∣
∣
)
−
1
=
(
∣
∣
d
r
∣
∣
2
+
λ
∣
∣
S
r
μ
r
∣
∣
)
−
1
\begin{align} S_r &=(||\boldsymbol{d}_r||^2+\frac{ \lambda} { ||\boldsymbol{\alpha}_r||})^{-1} \notag\\ &=(||\boldsymbol{d}_r||^2+\frac{ \lambda} { ||S_r\boldsymbol{\mu}_r||})^{-1} \tag{14} \end{align}
Sr=(∣∣dr∣∣2+∣∣αr∣∣λ)−1=(∣∣dr∣∣2+∣∣Srμr∣∣λ)−1(14)
由式(13)(14)有:
α
r
=
1
∣
∣
d
r
∣
∣
2
(
1
−
λ
∣
∣
μ
r
∣
∣
)
μ
r
\begin{align} % S_r=\frac{1}{||\boldsymbol{d}_r||^2}\left(1-\frac{ \lambda} { ||\boldsymbol{\mu}_r||}\right)\\ \boldsymbol{\alpha}_r=\frac{1}{||\boldsymbol{d}_r||^2}\left(1-\frac{ \lambda} { ||\boldsymbol{\mu}_r||}\right)\boldsymbol{\mu}_r \tag{15} \end{align}
αr=∣∣dr∣∣21(1−∣∣μr∣∣λ)μr(15)
因分组的捆绑限定,由式(10)的讨论知,只需考虑:
μ
r
+
=
(
(
μ
r
1
)
+
(
μ
r
2
)
+
⋯
(
μ
r
∣
D
∣
)
+
)
T
(
μ
r
i
)
+
=
max
{
0
,
μ
r
i
}
\begin{align} \boldsymbol{\mu}_r^+=(({\mu}_r^1)^+\ ({\mu}_r^2)^+\ \cdots \ ({\mu}_r^{|D|})^+)^{\mathrm{T}} ({\mu}_r^i)^+=\max\{0,{\mu}_r^i\} \tag{16} \end{align}
μr+=((μr1)+ (μr2)+ ⋯ (μr∣D∣)+)T(μri)+=max{0,μri}(16)
显然,只有
∣
∣
μ
r
+
∣
∣
>
λ
||\boldsymbol{\mu}_r^+||>\lambda
∣∣μr+∣∣>λ才有
α
r
\boldsymbol{\alpha}_r
αr全正。 综上有:
α
r
=
{
1
∣
∣
d
r
∣
∣
2
(
1
−
λ
∣
∣
μ
r
∣
∣
)
μ
r
+
,
(
w
h
e
n
∣
∣
μ
r
+
∣
∣
>
λ
)
0
,
(
o
t
h
e
r
w
i
s
e
)
\begin{align} \boldsymbol{\alpha}_r= \begin{cases} \frac{1}{||\boldsymbol{d}_r||^2}\left(1-\frac{ \lambda} { ||\boldsymbol{\mu}_r||}\right)\boldsymbol{\mu}_r^+,\qquad &(when ||\boldsymbol{\mu}_r^+||>\lambda)\\ 0,\qquad &(otherwise) \end{cases} \tag{17} \end{align}
αr={∣∣dr∣∣21(1−∣∣μr∣∣λ)μr+,0,(when∣∣μr+∣∣>λ)(otherwise)(17)
上述讨论了一组样本 { x i } , i ∈ G \{\boldsymbol{x}_i\},i\in \mathcal{G} {xi},i∈G的表达向量 { α i } , i ∈ G \{\boldsymbol{\alpha}^i\},i\in \mathcal{G} {αi},i∈G具有这样的特点:它的分量要么全为0,要么全为正(或全为负),其转置 A T = ( α 1 α 2 ⋯ α d ) \mathbf{A}^{\mathrm{T}}=(\boldsymbol{\alpha}_1\ \boldsymbol{\alpha}_2\ \cdots\ \boldsymbol{\alpha}_d ) AT=(α1 α2 ⋯ αd)按列具有该特点。
假定全体样本集分为
n
n
n组,第
m
m
m组下标为
G
m
,
(
m
=
1
,
2
,
⋯
,
n
)
\mathcal{G}_m,\ (m=1,2,\cdots,n)
Gm, (m=1,2,⋯,n),第
m
m
m组的样本为
{
x
i
}
i
∈
G
m
\{\boldsymbol{x}_i\}_{i\in \mathcal{G}_m}
{xi}i∈Gm,则对每组使用式(5)求得
α
r
i
{\alpha}_r^i
αri(情形1:
p
=
1
p=1
p=1的解:式(10))或
α
r
\boldsymbol{\alpha}_r
αr(情形2:
p
=
2
p=2
p=2的解:式(17)),即得到第
m
m
m组的样本通过字典编码后的表达为
A
m
\mathbf{A}_m
Am。
将
{
A
m
}
m
=
1
n
\{\mathbf{A}_m\}_{m=1}^n
{Am}m=1n拼接成:
A
=
(
A
1
A
2
⋯
A
n
)
\mathbf{A}=(\mathbf{A}_1\ \mathbf{A}_2\ \cdots\ \mathbf{A}_n)
A=(A1 A2 ⋯ An)。
现在切换到:已知上述分组 G m , ( m = 1 , 2 , ⋯ , n ) \mathcal{G}_m,\ (m=1,2,\cdots,n) Gm, (m=1,2,⋯,n)及每组的编码 A m \mathbf{A}_m Am,求字典矩阵: D = ( d 1 d 2 ⋯ d ∣ D ∣ ) \mathbf{D}=(\boldsymbol{d}_1\ \boldsymbol{d}_2\ \cdots\ \boldsymbol{d}_{|D|} ) D=(d1 d2 ⋯ d∣D∣)。
该问题的最小目标表达式为:
Q
(
D
)
=
∑
m
=
1
n
Q
(
A
m
,
G
m
,
D
)
+
γ
∑
k
=
1
∣
D
∣
∣
∣
d
k
∣
∣
p
\begin{align} Q(\mathbf{D} )=\sum_{m=1}^nQ(\mathcal{A}_m ,\mathcal{G}_m ,\mathcal{D} )+\gamma \sum_{k=1}^{|D|}||\boldsymbol{d}_k||_p \tag{18} \end{align}
Q(D)=m=1∑nQ(Am,Gm,D)+γk=1∑∣D∣∣∣dk∣∣p(18)
其中,
Q
(
A
m
,
G
m
,
D
)
Q(\mathcal{A}_m ,\mathcal{G}_m ,\mathcal{D} )
Q(Am,Gm,D)为式(5)。
令 p = 0 p=0 p=0,讨论梯度: ∂ Q ( D ) ∂ d r = 0 \frac{\partial Q(\mathbf{D} )} {\partial \boldsymbol{d}_r}=0 ∂dr∂Q(D)=0,即可得解(从略)。
本文为原创,您可以:
- 点赞(支持博主)
- 收藏(待以后看)
- 转发(他考研或学习,正需要)
- 评论(或讨论)
- 引用(支持原创)
- 不侵权