前言
初稿先记一些重要的基本结论。
- 因为结论的重要性比较主观,对lemma,theorem,proposition的区分可能比较随意,按笔者兴趣来。
- 本文默认G为无向图。节点数N,顶点集V,边集E这些常见notation就不必多写了吧。
一、Basic Laplacian
1.1 Laplacian矩阵定义回顾
不加自边(self-edge)增强的时候,L=D-A。
L
(
i
,
j
)
=
{
d
e
g
r
e
e
(
i
)
if
i
=
j
−
1
if
(
i
,
j
)
∈
E
0
otherwise
L(i, j)= \left\{\begin{array}{ll} degree(i) & \text { if } i=j \\ -1 & \text { if }(i, j) \in E \\ 0 & \text { otherwise } \end{array}\right.
L(i,j)=⎩⎨⎧degree(i)−10 if i=j if (i,j)∈E otherwise
其中degree(i)表示结点i的度数。
如果对其normalize,
得到
L
n
o
r
m
=
D
−
1
2
L
D
−
1
2
L^{norm}=D^{-\frac{1}{2}}LD^{-\frac{1}{2}}
Lnorm=D−21LD−21
L
n
o
r
m
(
i
,
j
)
=
{
1
if
i
=
j
and
d
j
≠
0
−
1
d
i
d
j
if
(
i
,
j
)
∈
E
0
otherwise
L^{norm}(i, j)= \left \{ \begin{array}{ll} 1 & \text { if } i=j \text{ and } d_{j} \ne 0\\ -\frac{1}{\sqrt{d_{i}d_{j}}} & \text { if }(i, j) \in E \\ 0 & \text { otherwise } \end{array} \right.
Lnorm(i,j)=⎩⎪⎨⎪⎧1−didj10 if i=j and dj=0 if (i,j)∈E otherwise
注意到继续扩展,可以写成如下形式
L n o r m = D − 1 2 L D − 1 2 = D − 1 2 ( D − A ) D − 1 2 = I n − D − 1 2 A D − 1 2 L^{norm}=D^{-\frac{1}{2}}LD^{-\frac{1}{2}}=D^{-\frac{1}{2}}(D-A)D^{-\frac{1}{2}}\\=I_n-D^{-\frac{1}{2}}AD^{-\frac{1}{2}} Lnorm=D−21LD−21=D−21(D−A)D−21=In−D−21AD−21
1.2 左乘L的效果与L的半正定性质
Proposition 1.2.1
向量左乘Laplacian矩阵后的第 i i i个分量等价于每个与 i i i相连的 j j j对应的分量作减法 v ( i ) − v ( j ) v(i)-v(j) v(i)−v(j)后求和
上面这个说法太抽象了,建议直接看证明。
证明:
设 v ∈ R N v \in \mathbb{R}^N v∈RN, L ∈ R N × N L \in \mathbb{R}^{N\times N} L∈RN×N,
记 w = L v w=Lv w=Lv, w ∈ R N w \in \mathbb{R}^{N} w∈RN,
则 w w w在第i个坐标上的分量 w ( i ) w(i) w(i)满足
w ( i ) = d e g r e e ( i ) v ( i ) − ∑ j : ( i , j ) ∈ E v ( j ) = ∑ j : ( i , j ) ∈ E v ( i ) − ∑ j : ( i , j ) ∈ E v ( j ) = ∑ j : ( i , j ) ∈ E ( v ( i ) − v ( j ) ) w(i) = degree(i)v(i)-\sum_{j:(i, j) \in E} v(j) \\ =\sum_{j:(i, j) \in E}v(i)- \sum_{j:(i, j) \in E}v(j) \\ =\sum_{j:(i, j) \in E}(v(i)-v(j)) w(i)=degree(i)v(i)−∑j:(i,j)∈Ev(j)=∑j:(i,j)∈Ev(i)−∑j:(i,j)∈Ev(j)=∑j:(i,j)∈E(v(i)−v(j))
直观感受就是,对每一个与i相邻的结点j,取v(i)与v(j)做减法,最后加总。
有了上述命题,我们可以进一步地观察标量 v T L v v^TLv vTLv
Proposition 1.2.2
L是半正定矩阵。
证明:
v T L v = v T w = ∑ i v ( i ) w ( i ) = ∑ i [ v ( i ) ∑ j : ( i , j ) ∈ E ( v ( i ) − v ( j ) ) ] = ∑ i ∑ j : ( i , j ) ∈ E v ( i ) ( v ( i ) − v ( j ) ) = ∑ ( i , j ) ∈ E v ( i ) ( v ( i ) − v ( j ) ) ( 神 奇 的 变 形 , 怎 么 想 到 的 ) = ∑ i < j : ( i , j ) ∈ E v ( i ) ( v ( i ) − v ( j ) ) + v ( j ) ( v ( j ) − v ( i ) ) = ∑ i < j : ( i , j ) ∈ E ( v ( i ) − v ( j ) ) 2 \begin{aligned} v^{T} L v &= v^{T}w \\ &=\sum_{i} v(i)w(i) \\ &=\sum_{i} [v(i) \sum_{j:(i, j) \in E}(v(i)-v(j))] \\ &=\sum_{i} \sum_{j:(i, j) \in E}v(i)(v(i)-v(j)) \\ &=\sum_{(i, j) \in E} v(i)(v(i)-v(j)) \\ & (神奇的变形,怎么想到的)\\ &=\sum_{i<j:(i, j) \in E} v(i)(v(i)-v(j))+v(j)(v(j)-v(i)) \\ &=\sum_{i<j:(i, j) \in E}(v(i)-v(j))^{2} \end{aligned} vTLv=vTw=i∑v(i)w(i)=i∑[v(i)j:(i,j)∈E∑(v(i)−v(j))]=i∑j:(i,j)∈E∑v(i)(v(i)−v(j))=(i,j)∈E∑v(i)(v(i)−v(j))(神奇的变形,怎么想到的)=i<j:(i,j)∈E∑v(i)(v(i)−v(j))+v(j)(v(j)−v(i))=i<j:(i,j)∈E∑(v(i)−v(j))2
对每个结点i,找标号大于它的有连边的结点j,取v的i,j两个分量作差后求平方和,再加总。
从上式最后的平方和可以看到,对任意
v
v
v,
v
T
L
v
≥
0
v^TLv \ge 0
vTLv≥0,
所以L矩阵是半正定的。之后就能推所有特征值
λ
≥
0
\lambda \ge 0
λ≥0。 (后面可以进一步证明特征值上确界为2)
PS:上述证明中隐含了一个额外的结论。
任意向量取 v T L v v^{T} L v vTLv等价于求 ∑ i , j ∈ E ( v ( i ) − v ( j ) ) 2 \sum_{i,j \in E} (v(i)-v(j))^{2} ∑i,j∈E(v(i)−v(j))2
上述结论可以扩展到矩阵形式。
任意矩阵 Z ∈ R n × n Z \in R^{n\times n} Z∈Rn×n,
设其 i i i行为 Z i ∈ R 1 × n Z_i \in R^{1\times n} Zi∈R1×n, j j j列为 z j ∈ R n × 1 z_j \in R^{n\times 1} zj∈Rn×1
取 t r ( Z T L Z ) tr(Z^TLZ) tr(ZTLZ)
= ∑ i , j ∈ E ∣ ∣ Z i − Z j ∣ ∣ 2 =\sum_{i,j \in E} ||Z_{i}-Z_{j}||^2 =∑i,j∈E∣∣Zi−Zj∣∣2
= ∑ i , j ∈ E ∣ ∣ z i − z j ∣ ∣ 2 =\sum_{i,j \in E} ||z_{i}-z_{j}||^2 =∑i,j∈E∣∣zi−zj∣∣2
1.3 L的固有特征值0
Theorem 1.3.1
L具备固有特征值0与对应的固有特征向量
证明:
构造 v ∈ R N v\in \mathbb{R}^N v∈RN, v = ( 1 N , 1 N , . . . , 1 N ) v=(\frac{1}{\sqrt{N}},\frac{1}{\sqrt{N}},...,\frac{1}{\sqrt{N}}) v=(N1,N1,...,N1),
显然 ∣ ∣ v ∣ ∣ = 1 ||v||=1 ∣∣v∣∣=1。
根据命题1.2.1
令 w = L v w=Lv w=Lv,而 w ( i ) = ∑ j : ( i , j ) ∈ E ( v ( i ) − v ( j ) ) w(i)=\sum_{j:(i, j) \in E}(v(i)-v(j)) w(i)=∑j:(i,j)∈E(v(i)−v(j))
由于v在每个坐标上分量都一致, v ( i ) − v ( j ) ≡ 0 v(i)-v(j) \equiv 0 v(i)−v(j)≡0
进而 w ( i ) ≡ 0 w(i)\equiv 0 w(i)≡0,
w = 0 w=\mathbf{0} w=0为零向量。
于是 w = L v = 0 = 0 ⋅ v w=Lv= \mathbf{0} = 0\cdot v w=Lv=0=0⋅v
因此,0是L的特征值,
v = ( 1 N , 1 N , . . . , 1 N ) v=(\frac{1}{\sqrt{N}},\frac{1}{\sqrt{N}},...,\frac{1}{\sqrt{N}}) v=(N1,N1,...,N1)是特征值0对应的特征向量。
别忘了这个v的模长还是1。
证毕。
1.4 L的特征值0的重数
Theorem 1.4.1
L的特征值0的重数(multiplicity of the zero eigenvalue)恰等于图G上连通子图的个数(the number of connected components of the graph G)。
证明:
不妨设图G有K个连通子图,
于是可以将顶点集V拆分成K个子集 V 1 , V 2 , . . . , V K V_1,V_2,...,V_K V1,V2,...,VK,
同理将边集E也拆成 E 1 , E 2 , . . . , E K E_1,E_2,...,E_K E1,E2,...,EK,
我们以 ∣ V i ∣ |V_i| ∣Vi∣表示第i个子集 V i V_i Vi中的结点数量。
对每个子集 V i V_i Vi,构造向量 v i v_i vi,使之满足 v i ( j ) = 1 ∣ V i ∣ if ( i , j ) ∈ E i else 0 v_i(j)=\frac{1}{\sqrt{|V_i|}} \text{ if } (i,j) \in E_i \text{ else } 0 vi(j)=∣Vi∣1 if (i,j)∈Ei else 0,
即将有连边的那些j对应的分量填上数值,其他分量置0。
( . . . , 1 ∣ V i ∣ , . . . , 1 ∣ V i ∣ , . . . , 0 , . . . ) (...,\frac{1}{\sqrt{|V_i|}},...,\frac{1}{\sqrt{|V_i|}},...,0,...) (...,∣Vi∣1,...,∣Vi∣1,...,0,...)
显然 ∣ ∣ v i ∣ ∣ = 1 ||v_i||=1 ∣∣vi∣∣=1。
于是活用命题1.2.1 【 w ( i ) = ∑ j : ( i , j ) ∈ E ( v ( i ) − v ( j ) ) w(i) =\sum_{j:(i, j) \in E}(v(i)-v(j)) w(i)=∑j:(i,j)∈E(v(i)−v(j))】
由于我们构造的 v i v_i vi满足每个相连的 i , j i,j i,j, v ( i ) − v ( j ) = 0 v(i)-v(j)=0 v(i)−v(j)=0。
因此左乘L后每个分量都是0。
因此 L v i = 0 = 0 v i Lv_i= \mathbf{0} = 0v_i Lvi=0=0vi
因此 v i v_i vi是L对应特征值0的特征向量。
又,对于 i ≠ j i \ne j i=j,由于子集 V i , V j V_i,V_j Vi,Vj是互斥的,必有 < v i , v j > = 0 <v_i,v_j>=0 <vi,vj>=0。
可知我们构造的 v 1 , v 2 , . . . , v K v_1,v_2,...,v_K v1,v2,...,vK两两正交,且模长均为1。
这就是一组很好的标准正交基了。
所以L对应特征值0的特征空间至少有K维,即特征值0的重数至少是K。
休息一下
下面来证明,重数的上界也是K。
即证明,不可能找到第 K + 1 K+1 K+1个 v K + 1 v_{K+1} vK+1。
我们知道,特征值0对应的特征向量 v v v必然要满足 L v = 0 Lv= \mathbf{0} Lv=0。
由命题1.2.1 【 w ( i ) = ∑ j : ( i , j ) ∈ E ( v ( i ) − v ( j ) ) w(i) =\sum_{j:(i, j) \in E}(v(i)-v(j)) w(i)=∑j:(i,j)∈E(v(i)−v(j))】,
可知 v v v必须满足:
if ( i , j ) ∈ E , then v ( i ) = v ( j ) = a , or v ( i ) = v ( j ) = 0 \text{if } (i,j) \in E, \text{ then } v(i)=v(j)=a, \text{ or } v(i)=v(j)=0 if (i,j)∈E, then v(i)=v(j)=a, or v(i)=v(j)=0。 ( a ≠ 0 ) (a \ne 0) (a=0)
而所有可能的坐标对 ( i , j ) (i,j) (i,j)都已经被拆到 E 1 , . . . , E K E_1,...,E_K E1,...,EK上去了。
不妨这样想象,一开始 v v v是全部坐标分量为0的。
我们一旦从边集 E E E中提取任意的 ( i , j ) (i,j) (i,j),将 v v v的这两个坐标上的分量置为非零值 a a a。
由于这对 ( i , j ) (i,j) (i,j)必然存在于某个子边集 E p E_p Ep中,
因此必存在一个刚才构造出来的向量 v p v_p vp满足:
v p ( i ) = v p ( j ) = 1 ∣ V p ∣ ≠ 0 v_p(i)=v_p(j)=\frac{1}{\sqrt{|V_p|}} \ne0 vp(i)=vp(j)=∣Vp∣1=0。
因此 < v , v p > ≠ 0 <v,v_p> \ne 0 <v,vp>=0,即 v v v必然不能与 v p v_p vp正交。
因此无论怎么取 ( i , j ) (i,j) (i,j)都找不到一个与 v 1 , v 2 , . . . , v K v_1,v_2,...,v_K v1,v2,...,vK全部正交的 v v v。
即找不到第 K + 1 K+1 K+1个 v K + 1 v_{K+1} vK+1。
因此特征值0的重数上界也是K。
综上
L的特征值0的重数恰为连通子图的数量K。
证毕。
PS:
上文只证明了unnormalized L的特征值0重数为K。
关于normalized L,
或者加了自边的augmented normalized L,
其特征值0的重数也是K。
留给读者自证。(因为我不会)
1.5 L的最大与最小特征值
本节仅提供分析。
根据定理1.2.2的证明过程,有
v T L v = ∑ i < j : ( i , j ) ∈ E ( v ( i ) − v ( j ) ) 2 v^{T} L v = \sum_{i<j:(i, j) \in E}(v(i)-v(j))^{2} vTLv=∑i<j:(i,j)∈E(v(i)−v(j))2
特别地,当v为L的特征向量时
v T L v = v T λ v = λ ∣ ∣ v ∣ ∣ 2 = ∑ i < j : ( i , j ) ∈ E ( v ( i ) − v ( j ) ) 2 v^{T} L v =v^{T} \lambda v = \lambda ||v||^2 = \sum_{i<j:(i, j) \in E}(v(i)-v(j))^{2} vTLv=vTλv=λ∣∣v∣∣2=∑i<j:(i,j)∈E(v(i)−v(j))2
现在我们仅考虑所有特征向量中,模长为1的那些单位特征向量。
即加上约束 ∣ ∣ v ∣ ∣ = 1 ||v||=1 ∣∣v∣∣=1,
得到 λ ∣ ∣ v ∣ ∣ 2 = λ = ∑ i < j : ( i , j ) ∈ E ( v ( i ) − v ( j ) ) 2 \lambda ||v||^2= \lambda = \sum_{i<j:(i, j) \in E}(v(i)-v(j))^{2} λ∣∣v∣∣2=λ=∑i<j:(i,j)∈E(v(i)−v(j))2
等式右侧的连加表达式可以大致理解为“方差”的变种,衡量了这个特征向量 v v v在每个分量上的值“差异”有多大。
所以我们可以说,越小的特征值 λ \lambda λ对应的特征向量,其在每个分量上的“差异”越小。
这对应了定理1.3.1,最小的特征值 λ = 0 \lambda=0 λ=0对应的特征向量在每个分量上完全相等。
所以我们可以想象,次小的特征值对应的特征向量应该是不同分量上的差异第二小的。第三小的特征值对应的特征向量在不同分量上的差异是第三小的。
类似的,最大的 λ \lambda λ对应的特征向量 v v v,就是在不同分量上的差异最大的。
1.6 L n o r m L^{norm} Lnorm的特征值范围
这一节快点过,跟前面很类似。
1.6.1
L n o r m L^{norm} Lnorm也满足半正定性,即特征值非负。
证明
x T L n o r m x = x T ( I − D − 1 2 A D − 1 2 ) x = ∑ i ∈ V x ( i ) 2 − ∑ ( i , j ) ∈ E 2 x ( i ) x ( j ) d ( i ) d ( j ) = ∑ ( i , j ) ∈ E ( x ( i ) d ( i ) − x ( j ) d ( j ) ) 2 ≥ 0. \begin{aligned} x^{T} L^{norm} x &=x^{T}(I-D^{-\frac{1}{2}}AD^{-\frac{1}{2}}) x \\ &=\sum_{i \in V} x(i)^{2}-\sum_{(i, j) \in E} \frac{2 x(i) x(j)}{\sqrt{d(i) d(j)}} \\ &=\sum_{(i, j) \in E}\left(\frac{x(i)}{\sqrt{d(i)}}-\frac{x(j)}{\sqrt{d(j)}}\right)^{2} \\ & \geq 0 . \end{aligned} xTLnormx=xT(I−D−21AD−21)x=i∈V∑x(i)2−(i,j)∈E∑d(i)d(j)2x(i)x(j)=(i,j)∈E∑(d(i)x(i)−d(j)x(j))2≥0.
这个证明的第二步可能不是很显然。
1.6.2
L n o r m L^{norm} Lnorm也具备固有特征值0,对应0特征值的特征向量 D 1 2 v D^{\frac{1}{2}}v D21v,其中 v v v是 L L L对应特征值0的特征向量, v = ( 1 N , 1 N , . . . , 1 N ) v=(\frac{1}{\sqrt{N}},\frac{1}{\sqrt{N}},...,\frac{1}{\sqrt{N}}) v=(N1,N1,...,N1)。
于是有 λ m i n = 0 \lambda_{min}=0 λmin=0。
1.6.3
L n o r m L^{norm} Lnorm的 λ m a x ≤ 2 \lambda_{max} \le 2 λmax≤2。
证明
先考虑一个lemma,即 I n + D − 1 2 A D − 1 2 I_n+D^{-\frac{1}{2}}AD^{-\frac{1}{2}} In+D−21AD−21同样具有半正定性质。
x T ( I + D − 1 2 A D − 1 2 ) x = ∑ i ∈ V x ( i ) 2 + ∑ ( i , j ) ∈ E 2 x ( i ) x ( j ) d ( i ) d ( j ) = ∑ ( i , j ) ∈ E ( x ( i ) d ( i ) + x ( j ) d ( j ) ) 2 ≥ 0 x^{T}(I+D^{-\frac{1}{2}}AD^{-\frac{1}{2}}) x=\sum_{i \in V} x(i)^{2}+\sum_{(i, j) \in E} \frac{2 x(i) x(j)}{\sqrt{d(i) d(j)}}=\sum_{(i, j) \in E}\left(\frac{x(i)}{\sqrt{d(i)}}+\frac{x(j)}{\sqrt{d(j)}}\right)^{2} \geq 0 xT(I+D−21AD−21)x=∑i∈Vx(i)2+∑(i,j)∈Ed(i)d(j)2x(i)x(j)=∑(i,j)∈E(d(i)x(i)+d(j)x(j))2≥0
于是
x T ( I + D − 1 2 A D − 1 2 ) x = x T x + x T D − 1 2 A D − 1 2 x ≥ 0 x^{T}(I+D^{-\frac{1}{2}}AD^{-\frac{1}{2}}) x \\ =x^Tx+x^TD^{-\frac{1}{2}}AD^{-\frac{1}{2}}x \ge 0 xT(I+D−21AD−21)x=xTx+xTD−21AD−21x≥0
于是
− x T D − 1 2 A D − 1 2 x ≤ x T x -x^TD^{-\frac{1}{2}}AD^{-\frac{1}{2}}x \le x^Tx −xTD−21AD−21x≤xTx
x T x − x T D − 1 2 A D − 1 2 x ≤ 2 x T x x^Tx-x^TD^{-\frac{1}{2}}AD^{-\frac{1}{2}}x \le 2x^Tx xTx−xTD−21AD−21x≤2xTx
x T ( I n − D − 1 2 A D − 1 2 ) x ≤ 2 x T x x^T(I_n-D^{-\frac{1}{2}}AD^{-\frac{1}{2}} )x \le 2x^Tx xT(In−D−21AD−21)x≤2xTx
x为非零向量时成立
x T ( I n − D − 1 2 A D − 1 2 ) x x T x ≤ 2 \frac{x^T(I_n-D^{-\frac{1}{2}}AD^{-\frac{1}{2}} )x }{x^Tx} \le 2 xTxxT(In−D−21AD−21)x≤2
即
x T L n o r m x x T x ≤ 2 \frac{x^T L^{norm} x }{x^Tx} \le 2 xTxxTLnormx≤2
运用Rayleigh quotient的结论就能得到,
L n r o m L^{nrom} Lnrom的最大特征值 λ m a x ≤ 2 \lambda_{max}\le 2 λmax≤2。
当且仅当原始图是二分图时,等号成立。
可以参考笔记《Rayleigh-Ritz theorem》
综合上面可以知道
L n o r m L^{norm} Lnorm的特征值范围是[0,2]。当且仅当是二分图时, λ max = 2 \lambda_{\max}=2 λmax=2成立。
2.Augmented Normalized Laplacian
2.1 定义
所谓augmented,就是对邻接矩阵加自边(self-edge or self-loop)。
A
~
=
A
+
I
n
\tilde{A} = A+I_n
A~=A+In
于是度数矩阵也相应变化(每个结点增加1)
D
~
=
D
+
I
n
\tilde{D} = D+I_n
D~=D+In
于是augmented normalized Laplacian
Δ
~
s
y
m
=
I
n
−
D
~
−
1
2
A
~
D
~
−
1
2
\tilde{\Delta}_{sym}=I_n - \tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}}
Δ~sym=In−D~−21A~D~−21
为了简洁起见,若非必要,本文后面省略脚标 s y m sym sym。
上式可以进一步拆解为
Δ ~ s y m = D ~ − 1 2 ( D ~ − A ~ ) D ~ − 1 2 = D ~ − 1 2 ( D − A ) D ~ − 1 2 = D ~ − 1 2 L D ~ − 1 2 \tilde{\Delta}_{sym}= \tilde{D}^{-\frac{1}{2}} ( \tilde{D} - \tilde{A} ) \tilde{D}^{-\frac{1}{2}} =\tilde{D}^{-\frac{1}{2}} ( D-A) \tilde{D}^{-\frac{1}{2}} =\tilde{D}^{-\frac{1}{2}} L \tilde{D}^{-\frac{1}{2}} Δ~sym=D~−21(D~−A~)D~−21=D~−21(D−A)D~−21=D~−21LD~−21
所以你会发现 Δ ~ s y m \tilde{\Delta}_{sym} Δ~sym跟 L n o r m = D − 1 2 L D − 1 2 L^{norm}=D^{-\frac{1}{2}}LD^{-\frac{1}{2}} Lnorm=D−21LD−21相比,区别只是换了个更大的分母来归一。
Δ ~ s y m ( i , j ) = { d i d i + 1 if i = j and d j ≠ 0 − 1 ( d i + 1 ) ( d j + 1 ) if ( i , j ) ∈ E 0 otherwise \tilde{\Delta}_{sym}(i, j)= \left \{ \begin{array}{ll} \frac{d_{i}}{d_i+1} & \text { if } i=j \text{ and } d_{j} \ne 0\\ -\frac{1}{\sqrt{ (d_{i}+1)(d_{j}+1)}} & \text { if }(i, j) \in E \\ 0 & \text { otherwise } \end{array} \right. Δ~sym(i,j)=⎩⎪⎨⎪⎧di+1di−(di+1)(dj+1)10 if i=j and dj=0 if (i,j)∈E otherwise
2.2 Δ ~ \tilde{\Delta} Δ~的半正定性
Theorem 2.2.1
Δ
~
\tilde{\Delta}
Δ~半正定。
证明:
约定 a ~ i j \tilde{a}_{ij} a~ij表示 A ~ \tilde{A} A~的i行j列元素。
x = ( x 1 , x 2 , . . . , x N ) ∈ R N , x i x=(x_1,x_2,...,x_N) \in \mathbb{R}^N ,x_i x=(x1,x2,...,xN)∈RN,xi表示x的第i个分量。
d i = d e g r e e ( i ) d_i = degree(i) di=degree(i),
加上自边后每个结点度数加1,所以 d ~ i = d i + 1 \tilde{d}_i=d_i+1 d~i=di+1 。
于是有
x T Δ ~ s y m x = ∑ i x i 2 − ∑ i ∑ j a ~ i j ( d i + 1 ) ( d j + 1 ) x i x j = 1 2 ( ∑ i x i 2 + ∑ j x j 2 − ∑ i ∑ j 2 a ~ i j x i x j ( d i + 1 ) ( d j + 1 ) ) = 1 2 ( ∑ i ∑ j a ~ i j x i 2 d i + 1 + ∑ j ∑ i a ~ i j x j 2 d j + 1 − ∑ i ∑ j 2 a ~ i j x i x j ( d i + 1 ) ( d j + 1 ) ) = 1 2 ∑ i ∑ j a ~ i j ( x i d i + 1 − x j d j + 1 ) 2 ≥ 0 \begin{array}{l} x^{T} \tilde{\Delta}_{\mathrm{sym}} x=\sum_{i} x_{i}^{2}-\sum_{i} \sum_{j} \frac{\tilde{a}_{i j} } {\sqrt{\left(d_{i}+1 \right)\left(d_{j}+1 \right)}} x_{i} x_{j} \\ =\frac{1}{2}\left(\sum_{i} x_{i}^{2}+\sum_{j} x_{j}^{2}-\sum_{i} \sum_{j} \frac{2 \tilde{a}_{i j} x_{i} x_{j}}{\left.\sqrt{\left(d_{i}+1\right)\left(d_{j}+1 \right)}\right.} \right) \\ =\frac{1}{2}\left(\sum_{i} \sum_{j} \frac{\tilde{a}_{i j} x_{i}^{2}}{d_{i}+1}+\sum_{j} \sum_{i} \frac{\tilde{a}_{i j} x_{j}^{2}}{d_{j}+1}\right. \\ \left.\quad-\sum_{i} \sum_{j} \frac{2 \tilde{a}_{i j} x_{i} x_{j}}{\sqrt{\left(d_{i}+1\right)\left(d_{j}+1\right)}}\right) \\ =\frac{1}{2} \sum_{i} \sum_{j} \tilde{a}_{i j}\left(\frac{x_{i}}{\sqrt{d_{i}+1}}-\frac{x_{j}}{\sqrt{d_{j}+1}}\right)^{2} \geq 0 \end{array} xTΔ~symx=∑ixi2−∑i∑j(di+1)(dj+1)a~ijxixj=21(∑ixi2+∑jxj2−∑i∑j(di+1)(dj+1)2a~ijxixj)=21(∑i∑jdi+1a~ijxi2+∑j∑idj+1a~ijxj2−∑i∑j(di+1)(dj+1)2a~ijxixj)=21∑i∑ja~ij(di+1xi−dj+1xj)2≥0
证毕。
2.3 Δ ~ \tilde{\Delta} Δ~的固有特征值与特征向量
Theorem 2.3.1
Δ
~
\tilde{\Delta}
Δ~具备固有特征值0与对应特征向量。
证明:
在Section1已经证明了 v = ( 1 , 1 , . . . , 1 ) T v=(1,1,...,1)^T v=(1,1,...,1)T是 Δ \Delta Δ对应特征值0的特征向量。(每个分量上完全相等)
即 Δ v = 0 ⋅ v = 0 \Delta v= 0\cdot v=\mathbf{0} Δv=0⋅v=0
令
v
~
=
D
~
1
2
v
\tilde{v} = \tilde{D}^{\frac{1}{2}}v
v~=D~21v
则有
D
~
v
~
=
[
I
n
−
D
~
−
1
2
A
~
D
~
−
1
2
]
D
~
1
2
v
=
[
D
~
−
1
2
(
D
~
−
A
~
)
D
~
−
1
2
]
D
~
1
2
v
=
D
~
−
1
2
Δ
v
=
D
~
−
1
2
0
⋅
v
=
0
=
0
⋅
v
~
\tilde{D}\tilde{v} = [I_n -\tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}}]\tilde{D}^{\frac{1}{2}}v\\ =[\tilde{D}^{-\frac{1}{2}} (\tilde{D}-\tilde{A} ) \tilde{D}^{-\frac{1}{2}}]\tilde{D}^{\frac{1}{2}}v \\ =\tilde{D}^{-\frac{1}{2}}\Delta v =\tilde{D}^{-\frac{1}{2}} 0\cdot v =\mathbf{0} \\ =0\cdot\tilde{v}
D~v~=[In−D~−21A~D~−21]D~21v=[D~−21(D~−A~)D~−21]D~21v=D~−21Δv=D~−210⋅v=0=0⋅v~
因此0是固有特征值,且
v
~
=
D
~
1
2
v
\tilde{v} = \tilde{D}^{\frac{1}{2}}v
v~=D~21v是对应特征值0的特征向量。
2.4 Δ ~ \tilde{\Delta} Δ~的最大特征值上界
将
Δ
\Delta
Δ特征值的升序排列记为
λ
1
,
λ
2
,
.
.
.
,
λ
N
\lambda_1,\lambda_2,...,\lambda_N
λ1,λ2,...,λN。
将
Δ
~
\tilde{\Delta}
Δ~特征值的升序排列记为
λ
~
1
,
λ
~
2
,
.
.
.
,
λ
~
N
\tilde{\lambda}_1,\tilde{\lambda}_2,...,\tilde{\lambda}_N
λ~1,λ~2,...,λ~N。
Theorem 2.4.1
Δ
~
\tilde{\Delta}
Δ~的最大特征值严格小于
Δ
\Delta
Δ的最大特征值,即
λ
~
N
<
λ
N
\tilde{\lambda}_N<\lambda_N
λ~N<λN。
证明:
设
v
~
\tilde{v}
v~是
Δ
~
\tilde{\Delta}
Δ~的特征向量,且满足
∣
∣
v
~
∣
∣
=
1
||\tilde{v}||=1
∣∣v~∣∣=1。
则
v
~
T
Δ
~
v
~
=
λ
~
∣
∣
v
~
∣
∣
2
=
λ
~
\tilde{v}^T\tilde{\Delta}\tilde{v}=\tilde{\lambda}||\tilde{v}||^2=\tilde{\lambda}
v~TΔ~v~=λ~∣∣v~∣∣2=λ~
所以最大特征值就是对上式求max。
λ ~ N = max ∣ ∣ v ~ ∣ ∣ = 1 v ~ T Δ ~ v ~ = max ∣ ∣ v ~ ∣ ∣ = 1 v ~ T ( I n − D ~ − 1 2 A ~ D ~ − 1 2 ) v ~ = max ∣ ∣ v ~ ∣ ∣ = 1 v ~ T [ I n − D ~ − 1 2 ( I n + A ) D ~ − 1 2 ] v ~ = max ∣ ∣ v ~ ∣ ∣ = 1 { ∣ ∣ v ~ ∣ ∣ 2 − v ~ T D ~ − 1 v ~ − v ~ T D ~ − 1 2 A D ~ − 1 2 v ~ } = 1 − min ∣ ∣ v ~ ∣ ∣ = 1 { v ~ T D ~ − 1 v ~ + v ~ T D ~ − 1 2 A D ~ − 1 2 v ~ } = 1 − min ∣ ∣ v ~ ∣ ∣ = 1 { ∑ i v ~ ( i ) 2 1 + d i + v ~ T D ~ − 1 2 A D ~ − 1 2 v ~ } \tilde{\lambda}_N=\max_{||\tilde{v}||=1}\tilde{v}^T\tilde{\Delta}\tilde{v} \\ =\max_{||\tilde{v}||=1}\tilde{v}^T(I_n -\tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}})\tilde{v} \\ =\max_{||\tilde{v}||=1}\tilde{v}^T[I_n -\tilde{D}^{-\frac{1}{2}} (I_{n}+A) \tilde{D}^{-\frac{1}{2}}] \tilde{v}\\ =\max_{||\tilde{v}||=1} \{ ||\tilde{v}||^2-\tilde{v}^{T}\tilde{D}^{-1}\tilde{v} - \tilde{v}^T \tilde{D}^{-\frac{1}{2}}A\tilde{D}^{-\frac{1}{2}} \tilde{v} \} \\ =1-\min_{||\tilde{v}||=1}\{ \tilde{v}^{T}\tilde{D}^{-1}\tilde{v} + \tilde{v}^T \tilde{D}^{-\frac{1}{2}}A\tilde{D}^{-\frac{1}{2}} \tilde{v} \} \\ =1-\min_{||\tilde{v}||=1}\{ \sum_{i}\frac{\tilde{v}(i)^2}{1+d_{i}}+ \tilde{v}^T \tilde{D}^{-\frac{1}{2}}A\tilde{D}^{-\frac{1}{2}} \tilde{v} \} λ~N=max∣∣v~∣∣=1v~TΔ~v~=max∣∣v~∣∣=1v~T(In−D~−21A~D~−21)v~=max∣∣v~∣∣=1v~T[In−D~−21(In+A)D~−21]v~=max∣∣v~∣∣=1{∣∣v~∣∣2−v~TD~−1v~−v~TD~−21AD~−21v~}=1−min∣∣v~∣∣=1{v~TD~−1v~+v~TD~−21AD~−21v~}=1−min∣∣v~∣∣=1{∑i1+div~(i)2+v~TD~−21AD~−21v~}
min括号中第一项显然是正数,可以放缩掉。
λ
~
N
<
1
−
min
∣
∣
v
~
∣
∣
=
1
v
~
T
D
~
−
1
2
A
D
~
−
1
2
v
~
=
max
∣
∣
v
~
∣
∣
=
1
v
~
T
(
I
n
−
D
~
−
1
2
A
D
~
−
1
2
)
v
~
\tilde{\lambda}_N<1-\min_{||\tilde{v}||=1}\tilde{v}^T \tilde{D}^{-\frac{1}{2}}A\tilde{D}^{-\frac{1}{2}} \tilde{v}\\ =\max_{||\tilde{v}||=1} \tilde{v}^T(I_n-\tilde{D}^{-\frac{1}{2}}A\tilde{D}^{-\frac{1}{2}} )\tilde{v}
λ~N<1−min∣∣v~∣∣=1v~TD~−21AD~−21v~=max∣∣v~∣∣=1v~T(In−D~−21AD~−21)v~
也可以参考https://arxiv.org/pdf/1905.10947.pdf 附录B。
待补充。
λ m a x = 2 \lambda_{max}=2 λmax=2
证明:
考虑基本不等式 ( a − b ) 2 ≤ 2 ( a 2 + b 2 ) (a-b)^2\le 2(a^2+b^2) (a−b)2≤2(a2+b2)
https://link.springer.com/content/pdf/10.1007/s40304-020-00222-7.pdf
最大特征值起码 n+1/n-1
References
CS168-Lecture11 ,Spectral Graph Theory, https://web.stanford.edu/class/cs168/index.html
Chung & Graham (1997),Spectral Graph Theory
Felix Wu, Tianyi Zhang, Amauri Holanda de Souza Jr, Christopher Fifty, Tao Yu, and Kilian Q
Weinberger. Simplifying graph convolutional networks. arXiv preprint. https://arxiv.org/pdf/1902.07153.pdf