特征值和特征向量(Eigenvalues and eigenvectors)
在线性代数中,一个线性变换的特征向量(eigenvector 或者 characteristic vector)是一个非零向量。将线性变换应用在它上面,它最多以一个标量因子进行伸缩变换。特征向量缩放的因子叫做特征值,记为 λ \lambda λ 。
几何上,一个特征向量,对应于一个实非零特征值,指向它被变换拉伸的方向,特征值是它被拉伸的因子。如果特征值是负的,则方向相反,如果特征值为0,则缩回原点。
不严谨地说,在多维向量空间中,特征向量是不会旋转的。
正式定义
如果
T
T
T 一个线性变换,是一个从在 数域
F
F
F 上的向量空间
V
V
V 到它自身的映射。
v
\bold{v}
v 是一个在
V
V
V 内的非零向量。则
v
\bold{v}
v 是一个
T
T
T 的特征向量如果
T
(
v
)
T(\bold{v})
T(v) 是
v
\bold{v}
v 的数乘(scalar multiple)。形式化地,
T
(
v
)
=
λ
v
,
T(\bold{v})=\lambda\bold{v},
T(v)=λv,
其中,
λ
\lambda
λ 是一个
F
F
F 内的标量,即特征值(eigenvalue或者characteristic value)。
由于存在 n × n n\times n n×n 的方阵 和 从 n n n 维向量空间到自身的线性变换之间直接的一一对应关系,而且是给定向量空间中的任意基的情况下。因此,在一个有限维的向量空间内,用矩阵的语言或者是线性变换的语言来定义特征值和特征向量是等价的。
如果
V
V
V 是有限维的,上述等式与
A
u
=
λ
u
A \bold{u} = \lambda \bold{u}
Au=λu
等价。其中
A
A
A 是
T
T
T 的矩阵表示,
u
\bold{u}
u 是
v
\bold{v}
v 的坐标向量(用坐标来表示的向量)。
概述(Overview)
特征值和特征向量在线性变换分析中占有突出地位。前缀 eigen- 取自德语单词 eigen(与英语单词 own 同源),表示“正确”、“特征”、“拥有”。特征值和特征向量最初用于研究刚体旋转运动的主轴,具有广泛的应用,例如稳定性分析、振动分析、原子轨道、面部识别和矩阵对角化。
此处的蒙娜丽莎示例提供了一个简单的说明。图像上的每个点都可以表示为从图像中心指向该点的向量。本例中的线性变换称为 shear 映射。上半部分的点向右移动,下半部分的点向左移动。指向原始图像中每个点的向量因此向右或向左倾斜,并通过变换变长或变短。应用此变换时,沿水平轴的点根本不会移动。因此,任何直接指向右侧或左侧且没有垂直分量的向量都是此变换的特征向量,因为映射不会改变其方向。此外,这些特征向量都有一个等于 1 的特征值,因为映射也不会改变它们的长度。
线性变换可以采用多种不同的形式,将向量映射到多种向量空间中,因此特征向量也可以采用多种形式。例如,线性变换可以是一个微分算子(differential operator),如
d
d
x
\frac{\mathrm{d} }{\mathrm{d} x}
dxd。在这种情况下,特征向量是的函数,被称为特征函数(本征函数,eigenfunctions),特征向量是被微分算子scaled的,比如
d
d
x
e
λ
x
=
λ
e
λ
x
\frac{\mathrm{d} }{\mathrm{d} x}e^{\lambda x}=\lambda e^{\lambda x}
dxdeλx=λeλx
或者,线性变换可以采用
n
×
n
n × n
n×n 矩阵的形式,在这种情况下,特征向量是
n
×
1
n × 1
n×1 矩阵。如果线性变换以
n
×
n
n × n
n×n 矩阵
A
A
A 的形式表示,则上述线性变换的特征值方程可以重写为矩阵乘法
A
v
=
λ
v
A\bold{v}=\lambda \bold{v}
Av=λv
其中特征向量
v
\bold{v}
v 是一个
n
×
1
n × 1
n×1 矩阵。对于矩阵,特征值和特征向量可用于分解矩阵——例如通过对其进行对角化。
特征值和特征向量产生了许多密切相关的数学概念,并且在命名它们时可以随意使用前缀 eigen-:
- 线性变换的所有特征向量的集合,每个特征向量都与其对应的特征值配对,称为该变换的特征系统(eigensystem)。
- 对应于相同特征值的 T T T 的所有特征向量的集合,加上零向量,称为特征空间(eigenspace),或被称为与该特征值相关的 T T T 的特征空间。
- 如果 T T T 的一组特征向量形成 T T T 的domain基,则该基称为特征基(eigenbasis)。
历史
特征值通常在线性代数或矩阵理论的背景下被引入。然而,从历史上看,它们出现在二次型和微分方程(quadratic forms and differential equations)的研究中。
18 世纪,Leonhard Euler 研究了刚体的旋转运动,发现了主轴的重要性。Joseph-Louis Lagrange 意识到主轴是惯性矩阵的特征向量。(惯性张量的特征值和特征向量分别是主惯性矩和主惯性轴的方向)
在 19 世纪初,Augustin-Louis Cauchy 看到了他们的工作如何用于对二次曲面(quadric surfaces)进行分类,并将其推广到任意维度。柯西还创造了术语 racine caractéristique(特征根),即现在所谓的特征值;他的术语存在于特征方程中。
后来,约瑟夫·傅立叶在他 1822 年的著名著作《Théorie analytique de la chaleur》中,利用拉格朗日和皮埃尔-西蒙·拉普拉斯的工作,通过变量分离来求解热方程。Charles-François Sturm 进一步发展了傅立叶的思想,并引起了柯西的注意,柯西将它们与自己的思想结合起来,得出了实对称矩阵(real symmetric matrices)具有实特征值的事实。 1855 年,Charles Hermite 将其扩展为现在称为 Hermitian 矩阵。
大约在同一时间,Francesco Brioschi 证明了正交矩阵的特征值位于单位圆(unit circle)上,和 Alfred Clebsch 发现了反对称矩阵(斜对称矩阵,skew-symmetric matrices)的相应结果。最后,Karl Weierstrass 通过意识到亏损矩阵会导致不稳定,阐明了拉普拉斯提出的稳定性理论中的一个重要方面。
与此同时,Joseph Liouville 研究了类似于 Sturm 的特征值问题;从他们的工作中产生的学科现在被称为 Sturm-Liouville 理论。施瓦茨在 19 世纪末研究了拉普拉斯方程在一般域上的第一个特征值,而庞加莱在几年后研究了泊松方程。
20 世纪初,大卫希尔伯特通过将算子视为无限矩阵来研究积分算子的特征值。他是第一个使用德语单词 eigen 的人,意思是“拥有”,表示 特征值和特征向量,在1904年。尽管他可能一直在遵循赫尔曼·冯·亥姆霍兹的相关用法。一段时间以来,英语中的标准术语是“proper value”,但更独特的术语“eigenvalue”是今天的标准。
第一个计算特征值和特征向量的数值算法出现在 1929 年,当时 Richard von Mises 发表了power method。当今最流行的方法之一,QR 算法,由 John G. F. Francis 和 Vera Kublanovskaya 于 1961 年独立提出。
矩阵特征值和特征向量
特征值和特征向量通常在以矩阵为重点的线性代数课程中介绍给我们。此外,有限维向量空间上的线性变换可以使用矩阵来表示,这在数值和计算应用中尤其常见。
考虑形成为 n 个标量列表的 n 维向量,例如三维向量
x
=
[
1
−
3
4
]
y
=
[
−
20
60
−
80
]
\bold{x}=\begin{bmatrix} 1\\-3\\4 \end{bmatrix} \qquad \bold{y}=\begin{bmatrix} -20\\60\\-80 \end{bmatrix}
x=⎣⎡1−34⎦⎤y=⎣⎡−2060−80⎦⎤
x
y
\bold{x} \qquad \bold{y}
xy 是相互的 标量倍数(scalar multiples),或平行或共线(parallel or collinear),如果有一个标量
λ
\lambda
λ 使得
x
=
λ
y
\bold{x} = \lambda \bold{y}
x=λy
在上面的例子中,
λ
=
−
1
20
\lambda = -\frac{1}{20}
λ=−201.
现在考虑由
n
×
n
n × n
n×n 矩阵
A
A
A 定义的
n
n
n 维向量的线性变换,
A
v
=
w
A\bold{v}=\bold{w}
Av=w
或者
[
A
11
A
12
⋯
A
1
n
A
21
A
22
⋯
A
2
n
⋮
⋮
⋮
A
n
1
A
n
2
⋯
A
n
n
]
[
v
1
v
2
⋮
v
n
]
=
[
w
1
w
2
⋮
w
n
]
\begin{bmatrix} A_{11}&A_{12}&\cdots A_{1n}\\ A_{21}&A_{22}&\cdots A_{2n}\\ \vdots & \vdots&\vdots\\ A_{n1}&A_{n2}&\cdots A_{nn} \end{bmatrix} \begin{bmatrix} v_{1}\\ v_{2}\\ \vdots \\ v_{n} \end{bmatrix}= \begin{bmatrix} w_{1}\\ w_{2}\\ \vdots \\ w_{n} \end{bmatrix}
⎣⎢⎢⎢⎡A11A21⋮An1A12A22⋮An2⋯A1n⋯A2n⋮⋯Ann⎦⎥⎥⎥⎤⎣⎢⎢⎢⎡v1v2⋮vn⎦⎥⎥⎥⎤=⎣⎢⎢⎢⎡w1w2⋮wn⎦⎥⎥⎥⎤
对于每一行
w
i
=
A
i
1
v
1
+
A
i
2
v
2
+
⋯
+
A
i
n
v
n
=
∑
j
=
1
n
A
i
j
v
j
w_{i}=A_{i1}v_{1}+A_{i2}v_{2}+\dots+A_{in}v_{n}=\sum _{j=1}^{n}A_{ij}v_{j}
wi=Ai1v1+Ai2v2+⋯+Ainvn=j=1∑nAijvj
如果 存在
v
\bold{v}
v 和
w
\bold{w}
w 是标量倍数关系,即如果
A
v
=
w
=
λ
v
(1)
A\bold{v}=\bold {w}=\lambda \bold{v} \tag{1}
Av=w=λv(1)
则
v
\bold{v}
v 是线性变换
A
A
A 的一个特征向量,标量因子
λ
\lambda
λ 是特征值,对应于那个特征向量。方程(
1
\bold{1}
1) 是矩阵
A
A
A 特征值方程。
方程(
1
\bold{1}
1)可以等价地写成
(
A
−
λ
I
)
v
=
0
⃗
(2)
(A-\lambda I)\bold{v} = \vec{0} \tag{2}
(A−λI)v=0(2)
其中
I
I
I 是
n
n
n 阶单位矩阵。
特征值和特征多项式(characteristic polynomial)
方程(
2
\bold{2}
2)有一个非零解
v
v
v 当且仅当 矩阵
A
−
λ
I
A-\lambda I
A−λI 的行列式是
0
0
0 。所以
A
A
A 的特征值是满足下面方程的
λ
\lambda
λ
∣
A
−
λ
I
∣
=
0
(3)
|A-\lambda I|=0 \tag{3}
∣A−λI∣=0(3)
根据 行列式的定义(Leibniz’s rule),方程(
3
\bold{3}
3 ) 是一个关于变量
λ
\lambda
λ 的多项式函数,多项式的阶数是
n
n
n (矩阵
A
A
A )的阶数。多项式的系数取决于
A
A
A ,除了
n
n
n 阶的项总是
(
−
1
)
n
λ
n
(-1)^{n}\lambda ^{n}
(−1)nλn 。这个多项式被称作
A
A
A 的特征多项式。 方程(
3
\bold{3}
3 ) 被称作
A
A
A 的特征方程(the characteristic equation or the secular equation)。
代数学基本定理(The fundamental theorem of algebra)指出
n
×
n
n\times n
n×n 矩阵的特征多项式,作为一个
n
n
n 阶多项式,可以被分解为
n
n
n 个线性项的乘积:
∣
A
−
λ
I
∣
=
(
λ
1
−
λ
)
(
λ
2
−
λ
)
…
(
λ
n
−
λ
)
,
(4)
|A-\lambda I|= (\lambda_{1}-\lambda)(\lambda_{2}-\lambda)\dots(\lambda_{n}-\lambda),\tag{4}
∣A−λI∣=(λ1−λ)(λ2−λ)…(λn−λ),(4)
其中,
λ
i
\lambda_{i}
λi 是复数域上的数。
λ
1
,
λ
2
,
…
λ
n
\lambda_{1},\lambda_{2},\dots\lambda_{n}
λ1,λ2,…λn 是多项式的根和矩阵
A
A
A 的特征值,不一定拥有不同的值。
作为一个简短的例子,在后面的例子部分更详细地描述,考虑矩阵
A
=
[
2
1
1
2
]
A= \begin{bmatrix} 2&1\\1&2 \end{bmatrix}
A=[2112]
取
(
A
−
λ
I
)
(A − λI)
(A−λI)的行列式,
A
A
A的特征多项式为
∣
A
−
λ
I
∣
=
[
2
−
λ
1
1
2
−
λ
]
=
3
−
4
λ
+
λ
2
|A-\lambda I|=\begin{bmatrix} 2-\lambda &1\\ 1&2-\lambda \end{bmatrix} =3-4\lambda+\lambda^{2}
∣A−λI∣=[2−λ112−λ]=3−4λ+λ2
令特征多项式为零,它的根为
λ
=
1
λ=1
λ=1 和
λ
=
3
λ=3
λ=3,这是
A
A
A 的两个特征值。每个特征值对应的特征向量可以通过求解方程
(
A
−
λ
I
)
v
=
0
{\displaystyle \left(A-\lambda I\right)\mathbf {v} =\mathbf {0} }
(A−λI)v=0得到。在这个例子中,特征向量是
v
λ
=
1
=
[
1
−
1
]
,
v
λ
=
3
=
[
1
1
]
\mathbf{v}_{\lambda=1}=\begin{bmatrix}1\\-1 \end{bmatrix}, \qquad \mathbf{v}_{\lambda=3}=\begin{bmatrix}1\\1 \end{bmatrix}
vλ=1=[1−1],vλ=3=[11]
的任何数乘向量。
如果矩阵 A 的元素都是实数,那么特征多项式的系数也将是实数,但特征值可能仍然有非零虚部(nonzero imaginary parts)。因此,相应特征向量的元素也可能具有非零虚部。类似地,即使 A A A 的所有元素都是有理数,或者即使它们都是整数,特征值也可能是无理数。
具有实系数的实多项式的非实根可以分组为复共轭对,即每对复共轭的两个成员具有仅符号不同的虚部和相同的实部。如果阶数是奇数,则根据intermediate value 定理,根中至少有一个是实数。因此,任何奇数阶实矩阵至少有一个实特征值,而偶数阶实矩阵可能没有任何实特征值。与复数特征值相关联的特征向量也是复数并且也出现在复共轭对中。
代数重数(Algebraic multiplicity)
令 λ i \lambda_{i} λi 为 n × n n\times n n×n 矩阵 A A A 的一个特征值。特征值的代数重数 μ A ( λ i ) \mu_{A}(\lambda_{i}) μA(λi) 是其作为特征多项式根的多重性,即最大整数 k k k 使得 ( λ − λ i ) k (λ − λi)^k (λ−λi)k 整除该多项式。
假设矩阵
A
A
A 具有维度
n
n
n ,且
d
≤
n
d ≤ n
d≤n 个不同的特征值。而等式
(
4
)
(4)
(4) 将
A
A
A 的特征多项式分解为
n
n
n 个线性项的乘积,其中一些项可能重复,而特征多项式可以写为 d 项的乘积,每个项对应于一个不同的特征值,每个项的指数是代数重数,
∣
A
−
λ
I
∣
=
(
λ
1
−
λ
)
u
A
(
λ
1
)
(
λ
1
−
λ
)
u
A
(
λ
2
)
…
(
λ
1
−
λ
)
u
A
(
λ
d
)
|A-\lambda I| = (\lambda_{1}-\lambda)^{u_{A}(\lambda_{1})}(\lambda_{1}-\lambda)^{u_{A}(\lambda_{2})}\dots(\lambda_{1}-\lambda)^{u_{A}(\lambda_{d})}
∣A−λI∣=(λ1−λ)uA(λ1)(λ1−λ)uA(λ2)…(λ1−λ)uA(λd)
如果
d
=
n
d=n
d=n 那么 右式是
n
n
n 个线性项,上式就和等式(
4
\bold4
4)一样了。每个特征值的代数重数大小和 维度
n
n
n 有下列关系
1
≤
u
A
(
λ
i
)
≤
n
u
A
=
∑
i
=
1
d
u
A
(
λ
i
)
=
n
1 \le u_{A}(\lambda_{i}) \le n \\ u_{A} = \sum_{i=1}^{d}u_A(\lambda_{i})=n
1≤uA(λi)≤nuA=i=1∑duA(λi)=n
如果
u
A
(
λ
i
)
=
1
u_A(\lambda_{i})=1
uA(λi)=1 ,那么
λ
i
\lambda_{i}
λi 被称作一个simple特征值。 如果
u
A
(
λ
i
)
u_A(\lambda_{i})
uA(λi) 和
λ
i
\lambda_{i}
λi 的几何重数(在下一section介绍)相等,那么
λ
i
\lambda_{i}
λi 被称作 semisimple 特征值。
特征空间,几何重数,和矩阵的特征基(Eigenspaces,geometric multiplicity,and the eigenbasis for matrices)
给定
n
×
n
n × n
n×n 矩阵
A
A
A 的特定特征值
λ
λ
λ,将集合
E
E
E 定义为满足方程 (
2
\bold2
2) 的所有向量
v
\mathbf{v}
v,
E
=
{
v
:
(
A
−
λ
I
)
v
=
0
⃗
}
E=\{\mathbf{v}:(A-\lambda I)\mathbf{v}=\vec{0}\}
E={v:(A−λI)v=0}
一方面,这个集合是矩阵
(
A
−
λ
I
)
(A − λI)
(A−λI)的核或零空间。另一方面,根据定义,任何满足此条件的非零向量都是与
λ
λ
λ 关联的
A
A
A 的特征向量。因此,集合
E
E
E 是零向量与与
λ
λ
λ 关联的
A
A
A 的所有特征向量的集合的并集,并且 集合
E
E
E 等于
(
A
−
λ
I
)
(A − λI)
(A−λI) 的零空间。
E
E
E 称为与
λ
λ
λ 相关的
A
A
A 的特征空间(eigenspace ,characteristic space)。一般来说,
λ
λ
λ 是一个复数,特征向量是复数
n
×
1
n × 1
n×1 矩阵。零空间的一个性质是它是一个线性子空间,所以
E
E
E 是
C
n
\mathbb{C}^{n}
Cn 的一个线性子空间。
因为特征空间 E E E 是一个线性子空间,所以它在加法下是封闭的。也就是说,如果两个向量 u \mathbf{u} u 和 v \mathbf{v} v 属于集合 E E E,记作 u , v ∈ E \mathbf{u}, \mathbf{v} ∈ E u,v∈E,则 u + v ∈ E \mathbf{u}+\mathbf{v} ∈ E u+v∈E 或等效地 A ( u + v ) = λ ( u + v ) A(u + v) = λ(u + v) A(u+v)=λ(u+v)。这可以使用矩阵乘法的分配特性(distributive property)来验证。类似地,因为 E E E 是一个线性子空间,它在标量乘法下是封闭的。也就是说,如果 v ∈ E \mathbf{v} ∈ E v∈E 并且 α \alpha α 是一个复数,则 ( α v ) ∈ E (\alpha \mathbf{v}) ∈ E (αv)∈E 或等效地 A ( α v ) = λ ( α v ) A(\alpha \mathbf{v}) = λ(\alpha \mathbf{v}) A(αv)=λ(αv)。这可以通过注意到复数矩阵乘以复数是可交换的来检查。只要 u + v \mathbf{u + v} u+v 和 α v α\mathbf{v} αv 不为零,它们也是与 λ λ λ 关联的 A A A 的特征向量。
与
λ
λ
λ 相关联的特征空间
E
E
E 的维数,或等效地与
λ
λ
λ 相关联的线性无关特征向量的最大数量,被称为特征值的几何重数
γ
A
(
λ
)
γA(λ)
γA(λ)。因为
E
E
E 也是
(
A
−
λ
I
)
(A − λI)
(A−λI)的零空间,
λ
λ
λ 的几何重数是
(
A
−
λ
I
)
(A − λI)
(A−λI) 的零空间的维度,也称为
(
A
−
λ
I
)
(A − λI)
(A−λI) 的零空间
γ
A
(
λ
)
=
n
−
r
a
n
k
(
A
−
λ
I
)
γA(λ)=n-rank(A-\lambda I)
γA(λ)=n−rank(A−λI)
注:不同的特征向量可以对应同一个特征值,或者说同一个特征值可以对应多个特征向量。因为特征向量是和矩阵对应的,一个矩阵表示一个线性变换。特征向量就是在这次线性变换中只伸缩,不旋转的向量。特征值就是这次线性变换作用在这个特征向量上时,这个特征向量的伸缩倍数。所以多个不同的特征向量是可以伸缩同样的倍数的,即可以有相同的特征值。
特征值的其他性质
令 A 是 一 个 任 意 的 n × n 复 数 矩 阵 , 其 特 征 值 为 λ 1 , … , λ n 。 令 A 是一个任意的 n\times n 复数矩阵,其特征值为 \lambda _{1},\ldots,\lambda _{n}。 令A是一个任意的n×n复数矩阵,其特征值为λ1,…,λn。每个特征值在这个列表中出现 μ A ( λ i ) \mu _{A}(\lambda _{i}) μA(λi) 次,其中 μ A ( λ i ) \mu _{A}(\lambda _{i}) μA(λi) 是特征值的代数重数。以下是该矩阵及其特征值的属性:
-
A A A 的迹,定义为其对角线元素之和,也是所有特征值之和
t r ( A ) = ∑ i = 1 n a i i = ∑ i = 1 n λ 1 + λ 2 + ⋯ + λ n tr(A)=\sum_{i=1}^{n}a_{ii}=\sum_{i=1}^{n}\lambda_{1}+\lambda_{2}+\dots+\lambda_{n} tr(A)=i=1∑naii=i=1∑nλ1+λ2+⋯+λn -
A 的行列式是其所有特征值的乘积,
∣ A ∣ = ∏ i = 1 n λ i |A|= \prod_{i=1}^{n}\lambda_i ∣A∣=i=1∏nλi -
矩阵 A A A 的 k k k (k为正整数)次幂 A k A^{k} Ak 的特征值为 λ 1 k , … , λ n k \lambda_1^k,\dots,\lambda_n^k λ1k,…,λnk 。
-
矩阵 A A A 可逆当且仅当 它的每个特征值都非零。
-
如果 A A A 是可逆的,那么 A − 1 A^{-1} A−1 的特征值为 1 λ 1 , … , 1 λ n {\frac {1}{\lambda _{1}}},\ldots ,{\frac {1}{\lambda _{n}}} λ11,…,λn1, 并且每个特征值的几何重数对应相等。此外,由于逆的特征多项式是原多项式的reciprocal polynomial,特征值共享相同的代数重数。
-
如果 A A A 等于它的共轭转置 A ∗ A^{*} A∗,或者等价地,如果 A A A 是 Hermitian,那么每个特征值都是实数。这同样适用于任何对称实矩阵。
-
如果 A A A 不仅是 Hermitian,而且还是正定、正半定、负定或负半定,则每个矩阵的特征值分别为正、非负、负或非正。
-
如果 A A A 是幺正(unitary)的,每个特征值都有绝对值 ∣ λ i ∣ = 1 |\lambda _{i}|=1 ∣λi∣=1。
-
如果 A A A 是一个 n × n n\times n n×n 矩阵和 { λ 1 , … , λ k } \{\lambda _{1},\ldots ,\lambda _{k}\} {λ1,…,λk} 是它的特征值,那么矩阵 I + A {\displaystyle I+A} I+A 的特征值(其中 I I I 是单位矩阵)是 { λ 1 + 1 , … , λ k + 1 } \{\lambda _{1}+1, \ldots ,\lambda _{k}+1\} {λ1+1,…,λk+1}。此外,如果 α ∈ C \alpha \in \mathbb {C} α∈C, α I + A \alpha I+A αI+A 的特征值是 { λ 1 + α , … , λ k + α } \{\lambda _{1}+\alpha ,\ldots , \lambda _{k}+\alpha \} {λ1+α,…,λk+α}。更一般地,对于多项式 P P P,矩阵 P ( A ) P(A) P(A) 的特征值是 { P ( λ 1 ) , … , P ( λ k ) } \{P(\lambda _{1}),\ldots ,P(\lambda _{k})\} {P(λ1),…,P(λk)}。
左右特征向量
许多学科传统上将向量表示为具有单列的矩阵,而不是具有单行的矩阵。因此,矩阵上下文中的“特征向量”一词几乎总是指右特征向量,即右乘
n
×
n
n\times n
n×n 矩阵
A
A
A 的列向量定义方程,方程(
1
\mathbf1
1)
A
v
=
λ
v
A\mathbf{v}=\lambda \mathbf{v}
Av=λv
特征值和特征向量问题也可以定义为左乘矩阵$A $的行向量。在这个公式中,定义方程是:
u
A
=
κ
u
\mathbf{u}A = \kappa\mathbf{u}
uA=κu
其中
κ
\kappa
κ 是一个标量,而且
u
\mathbf{u}
u 是一个
1
×
n
1\times n
1×n 的矩阵。任何满足上述方程的 行向量
u
\mathbf{u}
u 被称作 矩阵
A
A
A 的左特征向量,
κ
\kappa
κ 被称作与左特征向量相关的特征值。对上述方程取转置,得:
A
T
u
T
=
κ
u
T
A^{T}\mathbf{u}^{T}=\kappa\mathbf{u}^{T}
ATuT=κuT
将此等式与等式 (
1
\mathbf{1}
1) 进行比较,可以立即得出
A
A
A 的左特征向量与
A
T
A^{\textsf {T}}
AT具有相同的特征值。此外,由于 $ A^{\textsf {T}}$ 的特征多项式与
A
A
A 的特征多项式相同,所以
A
A
A 的左特征向量的特征值与
A
T
A^{\textsf {T}}
AT 的右特征向量的特征值相同。
对角化和特征分解(Diagonalization and the eigendecomposition)
假设
A
A
A 的特征向量形成一个基,或者等价地,
A
A
A 有
n
n
n 个线性无关的特征向量
v
1
,
v
2
,
.
.
.
,
v
1
n
v_{1}, v_{2}, ..., v_{1n}
v1,v2,...,v1n 以及相关的特征值
λ
1
,
λ
2
,
.
.
.
,
λ
n
λ_{1}, λ_{2}, ..., λ_{n}
λ1,λ2,...,λn。特征值不需要是不同的。定义一个方阵
Q
Q
Q,其列是
A
A
A 的
n
n
n 个线性无关的特征向量,
Q
=
[
v
1
,
v
2
…
v
n
]
Q=[\mathbf{v}_{1},\mathbf{v}_{2}\dots\mathbf{v}_{n}]
Q=[v1,v2…vn]
由于
Q
Q
Q 的每一列都是
A
A
A 的特征向量,因此将
A
A
A 乘以
Q
Q
Q 将
Q
Q
Q的每一列按其关联的特征值缩放,
A
Q
=
[
λ
1
v
1
λ
2
v
2
…
λ
n
v
n
]
AQ=[\mathbf{\lambda_{1}}\mathbf{v_{1}} \quad \mathbf{\lambda_{2}}\mathbf{v_{2}}\quad \dots\quad \mathbf{\lambda_{n}}\mathbf{v_{n}}]
AQ=[λ1v1λ2v2…λnvn]
考虑到这一点,定义一个对角矩阵
Λ
\Lambda
Λ,其中每个对角元素
Λ
i
j
\Lambda_{ij}
Λij 是与
Q
Q
Q 的第
i
i
i 列相关联的特征值。然后
A
Q
=
Q
Λ
AQ=Q\Lambda
AQ=QΛ
因为
Q
Q
Q 的列是线性无关的,所以
Q
Q
Q 是可逆的。等式两边右乘
Q
−
1
Q^{-1}
Q−1
A
=
Q
Λ
Q
−
1
A=Q\Lambda Q^{-1}
A=QΛQ−1
或者等式两边左乘
Q
−
1
Q^{-1}
Q−1 ,得
Q
−
1
A
Q
=
Λ
Q^{-1}AQ=\Lambda
Q−1AQ=Λ
因此,
A
A
A 可以分解为由其特征向量组成的矩阵、特征值沿对角线的对角矩阵以及特征向量矩阵的逆矩阵。这称为特征分解(eigendecomposition),它是一种相似变换。这样的矩阵
A
A
A 被称为相似于对角矩阵
Λ
Λ
Λ 或可对角化的。矩阵
Q
Q
Q 是相似变换的基矩阵的变更(change of basis matrix of the similarity transformation)。本质上,矩阵
A
A
A 和
Λ
Λ
Λ代表以两个不同基表示的相同线性变换。当将线性变换表示为
Λ
Λ
Λ 时,特征向量用作基。
相反,假设矩阵 A A A 是可对角化的。设 P P P 是一个非奇异方阵,使得 P − 1 A P P^{-1}AP P−1AP 是某个对角矩阵 D D D。左乘 P P P, A P = P D AP = PD AP=PD。因此, P P P 的每一列必须是 A A A 的特征向量,其特征值是 D D D 的对应对角元素。由于 P P P 的列必须线性无关才能使 P P P 可逆,因此 A A A 存在 n n n 个线性无关的特征向量。进而, A A A 的特征向量形成一个基当且仅当 A 是可对角化的。
不可对角化的矩阵称为亏损的(defective)。对于有亏损的矩阵,特征向量的概念推广到广义特征向量,特征值的对角矩阵推广到 Jordan 范式。在代数闭域上,任何矩阵 A 都具有 Jordan 范式,因此允许广义特征向量的基和分解为广义特征空间。
惯性张量
采用直角坐标系的三个坐标轴为参考轴,一个刚体的惯性张量
I
{\mathcal {I}}
I,以矩阵形式表达为
[
I
x
x
I
x
y
I
x
z
I
y
x
I
y
y
I
y
z
I
z
x
I
z
y
I
z
z
]
\begin{bmatrix} I_{xx} & I_{xy} & I_{xz} \\ I_{yx} & I_{yy} & I_{yz} \\ I_{zx} & I_{zy} & I_{zz}\end{bmatrix}
⎣⎡IxxIyxIzxIxyIyyIzyIxzIyzIzz⎦⎤
其中,矩阵的元素以方程表达为
I
x
x
=
d
e
f
∫
y
2
+
z
2
d
m
I
x
y
=
I
y
x
=
d
e
f
−
∫
x
y
d
m
I
y
y
=
d
e
f
∫
x
2
+
z
2
d
m
I
x
z
=
I
z
x
=
d
e
f
−
∫
x
z
d
m
I
z
z
=
d
e
f
∫
x
2
+
y
2
d
m
I
y
z
=
I
z
y
=
d
e
f
−
∫
y
z
d
m
I_{xx}\ \stackrel{\mathrm{def}}{=}\ \int y^2+z^2\ dm\qquad\qquad I_{xy}=I_{yx}\ \stackrel{\mathrm{def}}{=}\ - \int xy\ dm\,\\ I_{yy}\ \stackrel{\mathrm{def}}{=}\ \int x^2+z^2\ dm\qquad\qquad I_{xz}=I_{zx}\ \stackrel{\mathrm{def}}{=}\ - \int xz\ dm\,\\ I_{zz}\ \stackrel{\mathrm{def}}{=}\ \int x^2+y^2\ dm\qquad\qquad I_{yz}=I_{zy}\ \stackrel{\mathrm{def}}{=}\ - \int yz\ dm\,\\
Ixx =def ∫y2+z2 dmIxy=Iyx =def −∫xy dmIyy =def ∫x2+z2 dmIxz=Izx =def −∫xz dmIzz =def ∫x2+y2 dmIyz=Izy =def −∫yz dm
(
x
,
y
,
z
)
(x,\ y,\ z)
(x, y, z)是刚体内部的微小体积元
d
m
dm
dm的位置。惯性张量
I
\mathcal{I}
I是个实值三阶对称矩阵,对角元素
I
x
x
,
I
y
y
,
I
z
z
I_{xx},I_{yy},I_{zz}
Ixx,Iyy,Izz 分别为刚体对于 x-轴, y-轴,z-轴的转动惯量。非对角元素
I
α
β
,
α
≠
β
I_{\alpha \beta}, \alpha \ne \beta
Iαβ,α=β 是刚体对于
α
\alpha
α-轴和
β
\beta
β-轴的惯量积。根据谱定理,可以使惯性张量成为一个对角矩阵。所得到的三个特征值必定是正实值;三个特征向量必定正交。
换另外一种方法,我们需要求解特征方程
I
ω
=
λ
ω
\mathcal{I}\ \boldsymbol{\omega}=\lambda\;\boldsymbol{\omega}
I ω=λω
也就是以下行列式等于零的三次方程:
∣
I
x
x
−
λ
I
x
y
I
x
z
I
y
x
I
y
y
−
λ
I
y
z
I
ω
=
λ
ω
z
x
I
z
y
I
z
z
−
λ
∣
=
0
\begin{vmatrix} I_{xx} - \lambda & I_{xy} & I_{xz} \\ I_{yx} & I_{yy} - \lambda & I_{yz} \\\mathcal{I}\ \boldsymbol{\omega}=\lambda\;\boldsymbol{\omega}_{zx} & I_{zy} & I_{zz} - \lambda \end{vmatrix}=0
∣∣∣∣∣∣Ixx−λIyxI ω=λωzxIxyIyy−λIzyIxzIyzIzz−λ∣∣∣∣∣∣=0
这方程的三个根
λ
1
λ
2
λ
3
\lambda_1\,\lambda_2\,\lambda_3\,
λ1λ2λ3 都是正实的特征值。将特征值带入特征方程,再加上方向余弦(directional cosine)方程,
ω
x
2
+
ω
y
2
+
ω
z
2
=
1
\omega_x^2+\omega_y^2+\omega_z^2=1\,
ωx2+ωy2+ωz2=1。就可以求到特征向量
ω
^
1
ω
^
2
ω
^
3
\hat{\boldsymbol{\omega}}_1\,\hat{\boldsymbol{\omega}}_2\,\hat{\boldsymbol{\omega}}_3\,
ω^1ω^2ω^3
。这些特征向量都是刚体的惯量主轴;而这些特征值则分别是刚体对于惯量主轴的主转动惯量。
其他
- 特征值和特征向量在PCA中的应用请移步PAC、SVD以及它们的联系之充分数学知识推导
- 因子分析、图的特征值、特征脸、应力张量薛定谔方程、分子轨域、振动分析中特征值和特征向量的应用请移步参考文献1或者2。