1. 问题由来
之前读过一篇名为 TorusE: Knowledge Graph Embedding on a Lie Group 的论文,这是一篇关于知识图谱 Embedding 的文章,是我之前的研究方向。当时看它还挺复杂的,我甚至没看懂,主要原因是大学及研究生学的那点数学确实不太够用。虽然现在不做知识图谱了,但最近学习数学的时候,碰到了拓扑空间以及流形空间的概念,无意中还看到了李群的身影,于是回想起之前看到过的这篇论文。君子以不知为耻,既然李群这么流行,那我就学习学习吧,强迫症的我忍不住回去找到了这篇论文,准备吃透它。
2. 什么都不懂,Group、Manifold 是什么?
连基本概念都不懂,如何前进?于是查阅 Wikipedia,这么说:
A real Lie group is a group that is also a finite-dimensional real smooth manifold, in which the group operations of multiplication and inversion are smooth maps. Smoothness of the group multiplication μ : G × G → G μ ( x , y ) = x y \mu:G \times G \to G \quad \mu(x, y) = xy μ:G×G→Gμ(x,y)=xy means that μ \mu μ is a smooth mapping of the product manifold G × G G \times G G×G into G G G. The two requirements can be combined to the single requirement that the mapping ( x , y ) ↦ x − 1 y (x,y) \mapsto x^{-1}y (x,y)↦x−1y be a smooth mapping of the product manifold into G G G.
看不懂,因为不知道什么叫 group,什么叫 manifold!随后的两个公式自然就更不懂了。那继续查吧,先查一查 group 是啥:
A group is a non-empty set G G G together with a binary operation on G G G, here denoted “ ⋅ \cdot ⋅”, that combines any two elements a a a and b b b of G G G to form an element of G G G, denoted a ⋅ b a \cdot b a⋅b, such that the following three requirements, known as group axioms, are satisfied:
Associativity
For all a a a, b b b, c c c in G G G, one has ( a ⋅ b ) ⋅ c = a ⋅ ( b ⋅ c ) (a \cdot b) \cdot c = a \cdot (b \cdot c) (a⋅b)⋅c=a⋅(b⋅c).Identity element
There exists an element e e e in G G G such that, for every a a a in G G G, one has e ⋅ a = a e \cdot a = a e⋅a=a and a ⋅ e = a a \cdot e = a a⋅e=a. Such an element is unique (see below). It is called the identity element of the group.Inverse element
For each a a a in G G G, there exists an element b b b in G G G such that a ⋅ b = e a \cdot b = e a⋅b=e and b ⋅ a = e b \cdot a = e b⋅a=e, where e e e is the identity element. For each a a a, the element b b b is unique (see below); it is called the inverse of a a a and is commonly denoted a − 1 a^{-1} a−1.
到了中文维基百科就变成了四个要求
群 ( G , ⋅ ) (G, \cdot) (G,⋅) 是由集合 G G G 和二元运算 ⋅ \cdot ⋅ 构成的,符合以下四个性质(称“群公理”)的数学结构。 其中,二元运算结合任何两个元素 a a a 和 b b b 而形成另一个元素,记为 a ⋅ b a \cdot b a⋅b,符号 ⋅ \cdot ⋅ 是具体的运算,比如整数加法。
群公理所述的四个性质为:
- 封闭性
对于所有 G G G 中 a , b a, b a,b,运算 a ⋅ b a \cdot b a⋅b 的结果也在 G G G 中。- 结合律
对于所有 G G G 中 a , b a, b a,b 和 c c c,运算 ( a ⋅ b ) ⋅ c = a ⋅ ( b ⋅ c ) (a \cdot b) \cdot c = a \cdot (b \cdot c) (a⋅b)⋅c=a⋅(b⋅c) 成立。- 单位
存在 G G G 中的一个元素 e e e,使得对于所有 G G G 中的元素 a a a,总有等式 e ⋅ a = a ⋅ e = a e \cdot a = a \cdot e = a e⋅a=a⋅e=a 成立。- 逆元
对于每个 G G G 中的 a a a,存在 G G G 中的一个元素 b b b 使得总有 a ⋅ b = b ⋅ a = e a \cdot b = b \cdot a = e a⋅b=b⋅a=e,则称 b b b 为 a a a 在 G G G 中的逆元,此处 e e e 为单位元。
英文版的 “to form an element of G G G” 暗含了中文版的 “封闭性” 吧。
这看起来很抽象,大概意思就是:有一个集合,集合中的元素之间可进行二元运算,且这个二元运算满足封闭性、结合律、单位和逆元等四个性质。还是要看 example:
For example, consider the set of real numbers R \mathbb{R} R, which has the operations of addition a + b a + b a+b and multiplication a b ab ab. Formally, R \mathbb{R} R is a set, ( R , + ) (\mathbb{R} ,+) (R,+) is a group, and ( R , + , ⋅ ) (\mathbb {R} ,+,\cdot ) (R,+,⋅) is a field. But it is common to write R \mathbb{R} R to denote any of these three objects.
例子就是实数集带上加法运算 ( R , + ) (\mathbb{R} ,+) (R,+) 是一个群,验证可知它满足四个群公理性质。这下明白什么是群了,这个定义把平时见到的加法运算以及乘法运算 ( R \ 0 , ⋅ ) (\mathbb{R} \backslash{0}, \cdot) (R\0,⋅) 进行了推广泛化。【至于 ( R , + , ⋅ ) (\mathbb {R} ,+,\cdot ) (R,+,⋅) is a field,后面会讲到】
中文版的有一段话:“群运算的次序很重要,把元素 a a a 与元素 b b b 结合,所得到的结果不一定与把元素 b b b 与元素 a a a 结合相同;亦即, a ⋅ b = b ⋅ a a \cdot b = b \cdot a a⋅b=b⋅a(交换律)不一定恒成立。 满足交换律的群称为交换群(阿贝尔群,以尼尔斯 · 阿贝尔命名),不满足交换律的群称为非交换群(非阿贝尔群)。” 这里的 “阿贝尔群” 四个字,让我突然想起一个老教授在讲台上富有激情地讲述着什么,什么“幺元”、“逆元”、“阿贝尔群” … 原来我学过这东西,课程的名字叫离散数学,已经忘记是大二还是大三学的了,内容更是只记得有公理系统。
3. 离散数学中的群和环
【注】:这一部分大多是不需要看的,因为前面我们已经知道了群是什么东西。但要理解论文中给出的 torus 李群,这部分中的商群是需要了解一下的,不了解也没有关系,仔细看看也能理解。所以,这一部分都不是必须的,不过这能从集合论的角度将群的概念系统化,而不是简单了解一个概念就了事。
回去翻看,第 11 章:群和环,整整一章,比较系统地介绍了群和环,但里面没有讲述李群,这也是为什么我在论文中看到它时竟毫无感觉。“群和环属于抽象代数的范畴,被研究的对象和其上的运算称为一个代数系统,群是最基本、最重要的代数系统。” 翻看课本时,似乎一切都想起来了,下面就摘抄一部分基本概念,以建立起学习李群的基础。
3.1 代数运算
定义 1:设 A , B , D A, B, D A,B,D 是三个任意的非空集合。若 ∗ * ∗ 是 A × B A \times B A×B 到 D D D 的一个映射,即 ∗ : A × B → D *: A \times B \to D ∗:A×B→D 则称 ∗ * ∗ 是 A × B A \times B A×B 到 D D D 的一个代数运算。
虽然这很基础,对理解什么是群也没有什么必要性,但我觉得理解它对于建立数学感还是有用的。代数系统是基于三个集合的,且这三个集合不必是同类。在普通代数里,我们计算的对象是数,有自然数、整数、有理数、实数和复数等,计算的方法是加、减、乘、除和乘方。随着接触的数学越来越多,会发现计算对象不必是数,可以是其他数学对象,包括向量、矩阵,甚至是函数。
这里说的 “这三个集合不必是同类”,是我自己的理解,书中并没有。我是从书中对计算对象的介绍感觉到的,不一定对。我举个例以表达这个想法:令集合 A = N , B = { 奇 , 偶 } , D = { T r u e , F a l s e } A = \mathbb{N}, B = \{奇, 偶\}, D = \{True, False\} A=N,B={奇,偶},D={True,False},映射 ∗ : A × B → D *: A \times B \to D ∗:A×B→D 被定义为 ∗ ( ( a , b ) ) = c = { T r u e ( a % 2 = = 1 a n d b = 奇 ) o r ( a % 2 = = 0 a n d b = 偶 ) F a l s e 其他 *((a, b)) = c = \left\{\begin{matrix} True & (a \% 2 == 1 \ and \ b = 奇)\ or\ (a \% 2 == 0 \ and \ b = 偶) \\ False & 其他 \end{matrix}\right. ∗((a,b))=c={TrueFalse(a%2==1 and b=奇) or (a%2==0 and b=偶)其他 这是一个判定整数是奇数还是偶数的代数运算。我们可以看到, A A A 是数集, B B B 是一个有两个非数元素的集合, D D D 是布尔值集合。
定义 2:设 A , B A, B A,B 是两个任意的非空集合。若 ∗ * ∗ 是 A × A A \times A A×A 到 B B B 的一个运算,即 ∗ : A × A → B *: A \times A \to B ∗:A×A→B 则称 ∗ * ∗ 是集合 A A A 上的一个代数运算或二元运算。
这个定义把定义 1 中的 A , B A, B A,B 规定为同一个集合,从而称 ∗ * ∗ 是 A A A 上的一个代数运算。离群又进了一步,只是这里没有规定映射 ∗ * ∗ 的像集 B B B 是什么。如果再规定 B = A B = A B=A,就说 ∗ * ∗ 是集合 A A A 上的闭运算,也说集合 A A A 对运算 ∗ * ∗ 封闭。
定义 3:设 A A A 是一个非空集合。 ∗ * ∗ 是 A A A 上的一个代数运算。若对于 A A A 中的任意两个元素 a a a 和 b b b,都有 a ∗ b = b ∗ a a * b = b * a a∗b=b∗a 则称 ∗ * ∗ 满足交换律。
定义 4:设 A A A 是一个非空集合。 ∗ * ∗ 是 A A A 上的一个代数运算。若对于 A A A 中的任意三个元素 a , b a, b a,b 和 c c c,都有 ( a ∗ b ) ∗ c = a ∗ ( b ∗ c ) (a * b) * c = a * (b * c) (a∗b)∗c=a∗(b∗c) 则称 ∗ * ∗ 满足结合律。
这两个概念我们都很熟了,这里列出来,只是为了说明代数系统中的二元运算有这两个概念,方便后面的叙述。
3.2 代数系统 → \to → 半群 → \to → 群
定义 5: 设 A A A 是一个非空集合。 ∗ * ∗ 是 A A A 上的一个代数运算。若将集合 A A A 以及 A A A 上的代数运算 ∗ * ∗ 放在一起,记为 ( A , ∗ ) (A, *) (A,∗) 则称之为一个代数系统。
定义 6:设
(
A
,
∗
)
(A, *)
(A,∗) 是一个代数系统。若
(1)
∗
*
∗ 具有封闭性,即
∗
*
∗ 是
A
A
A 上的封闭运算;
(2)
∗
*
∗ 具有结合律.
则称
(
A
,
∗
)
(A, *)
(A,∗) 是一个半群。
定义 7:设
(
A
,
∗
)
(A, *)
(A,∗) 是一个代数系统,
(1)若存在
e
右
∈
A
e_{_{右}} \in A
e右∈A,对于任意的
a
∈
A
a \in A
a∈A,有
a
∗
e
右
=
a
a * e_{_{右}} = a
a∗e右=a,则称
e
右
e_{_{右}}
e右 是右幺元;
(2)若存在
e
左
∈
A
e_{_{左}} \in A
e左∈A,对于任意的
a
∈
A
a \in A
a∈A,有
e
左
∗
a
=
a
e_{_{左}} * a = a
e左∗a=a,则称
e
左
e_{_{左}}
e左 是左幺元;
(3)若存在一个元素
e
∈
A
e \in A
e∈A,它既是左幺元,又是右幺元,则称
e
e
e 是幺元(又称单位元)。
定理:设
(
A
,
∗
)
(A, *)
(A,∗) 是一个代数系统,若它既有左幺元,又有右幺元,则左幺元等于右幺元。若有幺元,则幺元唯一。
定义 8:称含有幺元的半群为含幺半群。
至此,离群的概念就只剩一个逆元了。
定义 9:设
(
A
,
∗
)
(A, *)
(A,∗) 是一个代数系统,
e
∈
A
e \in A
e∈A 是幺元,
a
∈
A
a \in A
a∈A,
(1)若存在
b
∈
A
b \in A
b∈A,使得
a
∗
b
=
e
a * b = e
a∗b=e,则称
b
b
b 是
a
a
a 的右逆元;
(2)若存在
d
∈
A
d \in A
d∈A,使得
d
∗
a
=
e
d * a = e
d∗a=e,则称
d
d
d 是
a
a
a 的左逆元;
(3)若存在
a
′
∈
A
a' \in A
a′∈A,使得
a
′
a'
a′ 既是
a
a
a 的左逆元,又是
a
a
a 的右逆元,则称
a
′
a'
a′ 是
a
a
a 的逆元。记为
a
−
1
a^{-1}
a−1
定理:设
(
A
,
∗
)
(A, *)
(A,∗) 是一个代数系统,
e
∈
A
e \in A
e∈A 是幺元,
a
∈
A
a \in A
a∈A 是任意的元素,则
(1)若
a
a
a 既有左逆元,又有右逆元,则
a
a
a 的左逆元等于右逆元,即为
a
a
a 的逆元;
(2)
a
a
a 的逆元若存在,则唯一。
把上面所有的定义都串起来,就组成了 群的定义:设
(
A
,
∗
)
(A, *)
(A,∗) 是一个代数系统,若其满足以下四条性质:
(1)
∗
*
∗ 是
A
A
A 上的闭运算;
(2)
∗
*
∗ 适合结合律;
(3)存在幺元
e
∈
A
e \in A
e∈A;
(4)对于
A
A
A 中的任意元素
a
a
a,存在逆元
a
−
1
∈
A
a^{-1} \in A
a−1∈A,使得
a
∗
a
−
1
=
a
−
1
∗
a
=
e
a * a^{-1} = a^{-1} * a = e
a∗a−1=a−1∗a=e。
则称
(
A
,
∗
)
(A, *)
(A,∗) 是一个群。
这是一个自上而下的过程,从代数系统逐渐增加条件。 代数系统 → 结合律 半群 → 幺元 含幺半群 → 逆元 群 代数系统 \xrightarrow[]{结合律} 半群 \xrightarrow[]{幺元} 含幺半群 \xrightarrow[]{逆元} 群 代数系统结合律半群幺元含幺半群逆元群 当然,如果仅仅看这些定义,那也没啥意思,也弄不明白这抽象的东西。就以 examples 顺一下这些概念吧。
例 1. 整数集
Z
\mathbb{Z}
Z 和其上减法运算
−
-
− 组成代数系统
(
Z
,
−
)
(\mathbb{Z}, -)
(Z,−),其中减法运算表现为映射
−
:
Z
×
Z
→
Z
-: \mathbb{Z} \times \mathbb{Z} \to \mathbb{Z}
−:Z×Z→Z 如
−
(
(
1
,
2
)
)
↦
−
1
-((1, 2)) \mapsto -1
−((1,2))↦−1 就是我们常见的
1
−
2
=
−
1
1 - 2 = -1
1−2=−1。
(
Z
,
−
)
(\mathbb{Z}, -)
(Z,−) 只能称为代数系统不能称为半群,是因为
−
-
− 不满足结合律:
−
4
=
(
1
−
2
)
−
3
≠
1
−
(
2
−
3
)
=
2
-4 = (1 - 2) - 3 \ne 1 - (2 - 3) = 2
−4=(1−2)−3=1−(2−3)=2.
例 2. 正整数集
Z
+
\mathbb{Z}^+
Z+ 和其上加法运算
+
+
+ 组成代数系统
(
Z
+
,
+
)
(\mathbb{Z}^{+}, +)
(Z+,+),其中加法运算表现为映射
+
:
Z
+
×
Z
+
→
Z
+
+: \mathbb{Z}^+ \times \mathbb{Z}^+ \to \mathbb{Z}^+
+:Z+×Z+→Z+ 如
+
(
(
1
,
2
)
)
↦
3
+((1, 2)) \mapsto 3
+((1,2))↦3 就是我们常见的
1
+
2
=
3
1 + 2 = 3
1+2=3。
+
+
+ 满足结合律,
(
Z
+
,
+
)
(\mathbb{Z}^+, +)
(Z+,+) 是半群。但没有幺元,就称不上含幺半群了。其实
+
+
+ 运算下,
0
0
0 是幺元,只可惜这里的集合是
Z
+
\mathbb{Z}^+
Z+.
例 3. 把例 2 的正整数集 Z + \mathbb{Z}^+ Z+ 换成自然数集 N \mathbb{N} N 变成代数系统 ( N , + ) (\mathbb{N}, +) (N,+),运算和 ( Z + , + ) (\mathbb{Z}^+, +) (Z+,+) 都一样,只不过是多了个幺元 0 0 0,故 ( N , + ) (\mathbb{N}, +) (N,+) 是含幺半群。然而对于集合 N \mathbb{N} N 中的任意元素都没有对应的逆元,所以它不是群。
例 4. 把例 3 的自然数集 N \mathbb{N} N 换成整数集 Z \mathbb{Z} Z 变成代数系统 ( Z , + ) (\mathbb{Z}, +) (Z,+),运算和 ( N , + ) (\mathbb{N}, +) (N,+) 都一样。对于集合 Z \mathbb{Z} Z 中的任意元素 a a a,都有对应的逆元 a − 1 = − a a^{-1} = -a a−1=−a。如此一来,代数系统 ( Z , + ) (\mathbb{Z}, +) (Z,+) 满足群的所有公理,它是一个群。
懂了什么是群后,就可以认识一种特殊的群,定义 10:设 ( A , ∗ ) (A, *) (A,∗) 是一个群,对于 A A A 中的任意两个元素 a , b a, b a,b,若有 a ∗ b = b ∗ a a * b = b * a a∗b=b∗a,则称 ( A , ∗ ) (A, *) (A,∗) 是交换群,又称阿贝尔群。 ( Z , + ) (\mathbb{Z}, +) (Z,+) 就是一个典型的阿贝尔群。
3.3 子群、商群
论文选取的一个李群是 torus,给出的定义是
一个
n
n
n 维 torus
T
n
T^n
Tn 是一个商空间 (quotient space),既然这里提到了 “商”,继续翻看课本,恰好发现后面有讲述相关内容:商群,它更加抽象,比一般的群要再抽象一层。所以,在讲述商群之前,先介绍一下商集的概念,这有助于理解商群是啥玩意儿。
3.3.1 等价关系、商集
这得回到课本的第 7 章:关系。
我们知道,给定两个集合 A , B A, B A,B,它们的笛卡尔积为 A × B = { ( a , b ) ∣ a ∈ A , b ∈ B } A \times B = \{(a, b) | a \in A, b \in B\} A×B={(a,b)∣a∈A,b∈B} 其元素为有序二元组,这大家都熟悉,就不多说了。对于二元关系,也是比较熟悉了,之前做知识图谱时经常跟关系打交道,如三元组 < 小明 , 朋友 , 小亮 > <小明, 朋友, 小亮> <小明,朋友,小亮> 表示小明和小亮之间存在着朋友的关系。可以把关系当作集合之间的映射吧,但从来没有想过关系竟然可以当作笛卡尔积的子集。
定义 11:设 A , B A, B A,B 是两个集合, R R R 是 A × B A \times B A×B 的一个子集,即 R ⊂ A × B R \subset A \times B R⊂A×B 则称 R R R 是从集合 A A A 到集合 B B B 的一个二元关系。
- 若 R = ∅ R = \varnothing R=∅,称 R R R 为空关系。
- 若 R = A × B R = A \times B R=A×B,称为全关系。
- 当 A = B A = B A=B 时,称二元关系 R ⊂ A × A R \subset A \times A R⊂A×A 为 A A A 上的二元关系。
设 R R R 是从 A A A 到 B B B 的一个二元关系,若 ( x , y ) ∈ R (x, y) \in R (x,y)∈R,则记为 x R y xRy xRy,并称元素 x x x 与 y y y 具有关系 R R R;若 ( x , y ) ∉ R (x, y) \notin R (x,y)∈/R,则称元素 x x x 与 y y y 没有关系 R R R。
以上这些都是我们熟悉的内容,只不过这里用集合论的语言把它们又叙述了一遍,显得更为规整。甚至,像逆关系、复合关系,还有关系自身的性质(自反性、对称性、反对称性、传递性),都可以用这种集合式语言规整地表述。如果你对这种集合式表述没兴趣,也可以不看,这都是熟悉的内容。
定义 12:设 A A A 和 B B B 是两个集合, R R R 是从 A A A 到 B B B 的一个二元关系,即 R ⊂ A × B R \subset A \times B R⊂A×B。令 R − 1 = { ( y , x ) ∣ ( x , y ) ∈ R } R^{-1} = \{(y, x) | (x, y) \in R\} R−1={(y,x)∣(x,y)∈R} 则 R − 1 ⊂ B × A R^{-1} \subset B \times A R−1⊂B×A 是从 B B B 到 A A A 的一个二元关系,称之为 R R R 的逆关系。
定义 13:设 A , B , C A, B, C A,B,C 是三个任意集合, R 1 R_1 R1 是从 A A A 到 B B B 的一个二元关系, R 2 R_2 R2 是从 B B B 到 C C C 的一个二元关系。记 R 1 ∘ R 2 = { ( x , z ) ∈ A × C ∣ 存在 y ∈ B 使得 x R 1 y 且 y R 2 z } R_1 \circ R_2 = \{(x, z) \in A \times C ~ | ~存在~ y \in B ~使得~ xR_1 y ~且~ yR_2z \} R1∘R2={(x,z)∈A×C ∣ 存在 y∈B 使得 xR1y 且 yR2z} 则 R 1 ∘ R 2 ⊂ A × C R_1 \circ R_2 \subset A \times C R1∘R2⊂A×C 是一个从 A A A 到 C C C 的二元关系,称之为 R 1 R_1 R1 与 R 2 R_2 R2 的复合关系。
定义 14:设
R
R
R 是集合
A
A
A 上的一个二元关系
(1)关系
R
R
R 称为自反的,如果
Δ
(
A
)
⊂
R
\Delta(A) \subset R
Δ(A)⊂R,其中
Δ
(
A
)
=
{
(
x
,
x
)
∣
x
∈
A
}
\Delta(A) = \{(x, x) | x \in A\}
Δ(A)={(x,x)∣x∈A} 为恒同关系,即对于任何
x
∈
A
x \in A
x∈A,有
x
R
x
xRx
xRx;
(2)关系
R
R
R 称为对称的,如果
R
=
R
−
1
R = R^{-1}
R=R−1,即对于任何
x
,
y
∈
A
x, y \in A
x,y∈A,如果
x
R
y
xRy
xRy,则
y
R
x
yRx
yRx;
(3)关系
R
R
R 称为反对称的,如果
R
∩
R
−
1
=
∅
R \cap R^{-1} = \varnothing
R∩R−1=∅,即对于任何
x
,
y
∈
A
x, y \in A
x,y∈A,
x
R
y
xRy
xRy 和
y
R
x
yRx
yRx 不能同时成立;【一说
R
∩
R
−
1
⊂
Δ
(
A
)
R \cap R^{-1} \subset \Delta(A)
R∩R−1⊂Δ(A)】
(4)关系
R
R
R 称为传递的,如果
R
∘
R
⊂
R
R \circ R \subset R
R∘R⊂R,即对于任何
x
,
y
,
z
∈
A
x, y, z \in A
x,y,z∈A,若
x
R
y
xRy
xRy 且
y
R
z
yRz
yRz,则有
x
R
z
xRz
xRz.
定义 15:设 A A A 是一个非空集合, R R R 是 A A A 上的一个二元关系,若 R R R 满足自反性、对称性、传递性,则称 R R R 是 A A A 上的等价关系。
这在常识上很好理解,自反性:一个元素肯定是和自己等价的;对称性: a a a 等价于 b b b,必然也有 b b b 等价于 a a a;传递性: a a a 等价于 b b b, b b b 等价于 c c c,必然有 a a a 等价于 c c c。
定义 16:若 R R R 是 A A A 上的等价关系, a a a 是 A A A 中任意一个元素,称集合 { x ∣ x ∈ A , ( x , a ) ∈ R } \{x | x \in A, (x, a) \in R \} {x∣x∈A,(x,a)∈R} 为集合 A A A 关于关系 R R R 的一个等价类,记为 [ a ] R [a]_R [a]R,即 [ a ] R = { x ∣ x ∈ A , ( x , a ) ∈ R } [a]_R = \{x | x \in A, (x, a) \in R \} [a]R={x∣x∈A,(x,a)∈R} 其中 a a a 叫代表元。
例:设 A = { 1 , 2 , 3 } A = \{1, 2, 3\} A={1,2,3}, R = { ( 1 , 1 ) , ( 2 , 2 ) , ( 3 , 3 ) , ( 1 , 2 ) , ( 2 , 1 ) } R = \{(1,1), (2,2), (3,3), (1,2), (2,1)\} R={(1,1),(2,2),(3,3),(1,2),(2,1)},显然 R R R 是 A A A 上一个等价关系。 [ 1 ] R = { 1 , 2 } [ 2 ] R = { 1 , 2 } [ 3 ] R = { 3 } \begin{aligned} [1]_R &= \{1, 2\} \\ [2]_R &= \{1, 2\} \\ [3]_R &= \{3\} \end{aligned} [1]R[2]R[3]R={1,2}={1,2}={3} 由此可以看出,等价类将等价的元素聚集到一个集合里,即 R R R 是一个分类原则。如 1 1 1 和 2 2 2 被聚集到 [ 1 ] R = [ 2 ] R = { 1 , 2 } [1]_R = [2]_R = \{1, 2\} [1]R=[2]R={1,2} 中。
定义 17:设 A A A 是一个非空集合, R R R 是 A A A 上的一个等价关系,称集合 { [ x ] R ∣ x ∈ A } \{[x]_R | x \in A\} {[x]R∣x∈A} 为集合 A A A 相对于等价关系 R R R 的商集合,记为 A / R A/R A/R,即 A / R = { [ x ] R ∣ x ∈ A } A / R = \{[x]_R | x \in A\} A/R={[x]R∣x∈A} 在例 1 中,由定义知, A / R = { [ 1 ] R , [ 2 ] R , [ 3 ] R } = { { 1 , 2 } , { 3 } } A / R = \{[1]_R, [2]_R, [3]_R\} = \{\{1, 2\}, \{3\}\} A/R={[1]R,[2]R,[3]R}={{1,2},{3}}. 可知,商集 A / R A / R A/R 是集合 A A A 的一个划分。【商,不就是 “分” 吗?】
3.3.2 子群及其陪集 → \to → 正规子群 → \to → 商群
有了上一小节对等价关系和商集的理解,我们可以回归对群的介绍。
定义 18:设 ( G , ∗ ) (G, *) (G,∗) 是一个群, ∅ ≠ A ⊂ G \varnothing \neq A \subset G ∅=A⊂G,若 ( A , ∗ ) (A, *) (A,∗) 也是一个群,则称 ( A , ∗ ) (A, *) (A,∗) 是 ( G , ∗ ) (G, *) (G,∗) 的子群。有时,也可简单地说 A A A 是 G G G 的子群。
这很好理解, ( Z , + ) (\mathbb{Z}, +) (Z,+) 是 ( R , + ) (\mathbb{R}, +) (R,+) 的子群。甚至你设定一个群 ( { 0 } , + ) (\{0\}, +) ({0},+),它只含幺元 0 0 0,是 ( Z , + ) (\mathbb{Z}, +) (Z,+) 的子群,也是 ( R , + ) (\mathbb{R}, +) (R,+) 的子群。
下面根据子群的概念建立 G G G 上的一个等价关系:设 ( G , ∗ ) (G, *) (G,∗) 是一个群, ( H , ∗ ) (H, *) (H,∗) 是它的一个子群。在 G G G 上定义一个二元关系 ∼ \sim ∼ 如下:对于任意 a , b ∈ G a, b \in G a,b∈G, a ∼ b 当且仅当 a ∗ b − 1 ∈ H a \sim b ~ 当且仅当 ~ a * b^{-1} \in H a∼b 当且仅当 a∗b−1∈H 哎!是不是和论文中写的一样了。下面我们将 Definition 2 和 这个等价关系对应起来。先抓住 y − x ∈ Z n a ∗ b − 1 ∈ H \begin{aligned} \bm{y} - \bm{x} &\in \mathbb{Z}^n \\ a * b^{-1} &\in H \end{aligned} y−xa∗b−1∈Zn∈H 若将 y − x \bm{y} - \bm{x} y−x 改写为 y + ( − x ) \bm{y} + (-\bm{x}) y+(−x),则 y \bm{y} y 对应 a a a, − x -\bm{x} −x 对应 b − 1 b^{-1} b−1, + + + 对应 ∗ * ∗, Z n \mathbb{Z}^n Zn 对应 H H H。这样,我们也仅仅是作了一个对应,好像还不能明白什么。
先看看
∼
\sim
∼ 到底是不是等价关系吧。
(1)对于任意的
a
∈
G
a \in G
a∈G,因为
a
∗
a
−
1
=
e
∈
H
a * a^{-1} = e \in H
a∗a−1=e∈H,所以
a
∼
a
a \sim a
a∼a,故
∼
\sim
∼ 是自反的。
(2)对于任意的
a
,
b
∈
G
a, b \in G
a,b∈G,若
a
∼
b
a \sim b
a∼b,则
a
∗
b
−
1
∈
H
a * b^{-1} \in H
a∗b−1∈H,又
(
H
,
∗
)
(H, *)
(H,∗) 是子群,所以
(
a
∗
b
−
1
)
−
1
=
b
∗
a
−
1
∈
H
(a * b^{-1})^{-1} = b * a^{-1} \in H
(a∗b−1)−1=b∗a−1∈H,所以
b
∼
a
b \sim a
b∼a,故
∼
\sim
∼ 是对称的。
(3)对于任意的
a
,
b
,
c
∈
G
a, b, c \in G
a,b,c∈G,若
a
∼
b
,
b
∼
c
a \sim b, b \sim c
a∼b,b∼c,则
a
∗
b
−
1
∈
H
a * b^{-1} \in H
a∗b−1∈H 且
b
∗
c
−
1
∈
H
b * c^{-1} \in H
b∗c−1∈H,所以
(
a
∗
b
−
1
)
∗
(
b
∗
c
−
1
)
=
a
∗
c
−
1
∈
H
(a * b^{-1}) * (b * c^{-1}) = a * c^{-1} \in H
(a∗b−1)∗(b∗c−1)=a∗c−1∈H,所以
a
∼
c
a \sim c
a∼c,故
∼
\sim
∼ 是传递的。
∼
\sim
∼ 满足自反性、对称性和传递性,故它是一个等价关系。
我们再来看令 H H H 去乘 a ∈ G a \in G a∈G 会发生什么。 H ∗ a = { h ∗ a ∣ h ∈ H } H * a = \{h * a ~|~ h \in H\} H∗a={h∗a ∣ h∈H},假设 b ∼ a b \sim a b∼a,则有 b ∗ a − 1 ∈ H b * a^{-1} \in H b∗a−1∈H,一定有某个 h = b ∗ a − 1 h = b * a^{-1} h=b∗a−1,此时 h ∗ a = ( b ∗ a − 1 ) ∗ a = b h * a = (b * a^{-1}) * a = b h∗a=(b∗a−1)∗a=b,哎! h ∗ a h * a h∗a 是某个与 a a a 等价的元素哎。是不是 G G G 中所有与 a a a 等价的元素都在 H ∗ a H * a H∗a 中呢?答案是肯定的,上面说的过程就已经说明了。是不是所有的 h ∗ a h * a h∗a 都与 a a a 等价呢?答案也是肯定的, h = h ∗ ( a ∗ a − 1 ) = ( h ∗ a ) ∗ a − 1 ∈ H h = h * (a * a^{-1}) = (h * a) * a^{-1} \in H h=h∗(a∗a−1)=(h∗a)∗a−1∈H,故 h ∗ a h * a h∗a 都与 a a a 等价。
如此以来, H ∗ a H * a H∗a 是所有与 a a a 等价的元素的集合,即 [ a ] ∼ = H ∗ a [a]_{\sim} = H * a [a]∼=H∗a,称之为子群 H H H 的右陪集。
同理,也可以定义左陪集 [ a ] ∼ = a ∗ H [a]_{\sim} = a * H [a]∼=a∗H,只不过这里的 ∼ \sim ∼ 定义为: a ∼ b 当且仅当 b − 1 ∗ a ∈ H a \sim b ~ 当且仅当 ~ b^{-1} * a \in H a∼b 当且仅当 b−1∗a∈H 当然,由于 ∗ * ∗ 不一定满足交换律,所以这两个等价关系是不一定一样的,从而左右陪集也是不一定一样的。
那么,如果对于任意一个 a ∈ G a \in G a∈G,都有 H ∗ a = a ∗ H H * a = a * H H∗a=a∗H,则称 H H H 是 G G G 的正规子群。可知,阿贝尔群的任何一个非空子集都是正规子群。
定义 19:若等价关系 ∼ \sim ∼ 由正规子群 H H H 定义,记 G G G 在 ∼ \sim ∼ 下的商集 G / ∼ = { [ a ] ∼ = a ∗ H = H ∗ a ∣ a ∈ G } G/\sim = \{[a]_{\sim} = a * H = H * a ~|~ a \in G\} G/∼={[a]∼=a∗H=H∗a ∣ a∈G} 也记为 G / H G/H G/H,这是因为确定了正规子群 H H H,也就确定了等价关系 ∼ \sim ∼,称 G / H G/H G/H 为 G G G 在正规子群 H H H 下的商群。【注意这里还没给出具体的二元运算】
说了那么多废话,终于到解答的时候了。
从 Definiton 2 中,可以看到
R
n
/
∼
=
{
[
x
]
∣
x
∈
R
n
}
=
{
{
y
∈
R
n
∣
y
∼
x
}
∣
x
∈
R
n
}
\begin{aligned} \mathbb{R}^n / \sim &= \{[\bm{x}] ~|~ \bm{x} \in \mathbb{R}^n\} \\ &= \{\{\bm{y} \in \mathbb{R}^n ~|~ \bm{y} \sim \bm{x}\} ~|~ \bm{x} \in \mathbb{R}^n\} \end{aligned}
Rn/∼={[x] ∣ x∈Rn}={{y∈Rn ∣ y∼x} ∣ x∈Rn} 再看
y
∼
x
⇔
y
−
x
∈
Z
n
\bm{y} \sim \bm{x} \Leftrightarrow \bm{y} - \bm{x} \in \mathbb{Z}^n
y∼x⇔y−x∈Zn 上面已经分析过,此处基本基本运算是
+
+
+,即
y
−
x
=
y
+
x
−
1
∈
Z
n
\bm{y} - \bm{x} = \bm{y} + \bm{x}^{-1} \in \mathbb{Z}^n
y−x=y+x−1∈Zn,哎!这不就确定子群是
(
Z
n
,
+
)
(\mathbb{Z}^n, +)
(Zn,+) 了吗!那
(
R
n
,
+
)
(\mathbb{R}^n, +)
(Rn,+) 自然是 “全群”,故 torus
T
n
T^n
Tn 是一个商群
R
n
/
Z
n
\mathbb{R}^n / \mathbb{Z}^n
Rn/Zn。
既然商群
R
n
/
Z
n
\mathbb{R}^n / \mathbb{Z}^n
Rn/Zn 是群,它应该有二元运算,来看一个定理
定理:设
G
G
G 是一个群,
H
H
H 是
G
G
G 的正规子群,
G
/
H
=
{
g
H
∣
g
∈
G
}
G/H = \{gH ~|~ g \in G\}
G/H={gH ∣ g∈G},对于任意的
g
1
H
,
g
2
H
∈
G
/
H
g_1H,~ g_2H \in G/H
g1H, g2H∈G/H,有
(
g
1
H
)
⊙
(
g
2
H
)
=
(
g
1
g
2
)
H
(g_1H) \odot (g_2H) = (g_1g_2)H
(g1H)⊙(g2H)=(g1g2)H 则
(
G
/
H
,
⊙
)
(G/H, \odot)
(G/H,⊙) 是一个群。
也就是说,对于 G / H G/H G/H,运算 ( g 1 H ) ⊙ ( g 2 H ) = ( g 1 g 2 ) H (g_1H) \odot (g_2H) = (g_1g_2)H (g1H)⊙(g2H)=(g1g2)H 满足群运算的要求,至于还有没有其他运算满足群运算,暂不考虑。因为对于 torus 来说,加法 + + + 本身已经满足 ( g 1 H ) ⊙ ( g 2 H ) = ( g 1 g 2 ) H (g_1H) \odot (g_2H) = (g_1g_2)H (g1H)⊙(g2H)=(g1g2)H。对于 ∀ x , y ∈ R n \forall \bm{x}, \bm{y} \in \mathbb{R}^n ∀x,y∈Rn,有 ( x + Z n ) + ( y + Z n ) = ( x + y ) + ( Z n + Z n ) = ( x + y ) + Z n (\bm{x} + \mathbb{Z}^n) + (\bm{y} + \mathbb{Z}^n) = (\bm{x} + \bm{y}) + (\mathbb{Z}^n + \mathbb{Z}^n) = (\bm{x} + \bm{y}) + \mathbb{Z}^n (x+Zn)+(y+Zn)=(x+y)+(Zn+Zn)=(x+y)+Zn 其实对于一个群 ( G , ∗ ) (G, *) (G,∗) 来说, G ∗ G = G G * G = G G∗G=G 是成立的,那么对于阿贝尔群来说, ( g 1 ∗ H ) ∗ ( g 2 ∗ H ) = ( g 1 ∗ g 2 ) ∗ H (g_1 * H) * (g_2 * H) = (g_1 * g_2) * H (g1∗H)∗(g2∗H)=(g1∗g2)∗H 是恒成立的,也即 ∗ * ∗ 本身就是一个商群运算。而对于非阿贝尔群来说,暂不研究了!
3.3.3 群论总结
至此,群论的部分就结束了。我们从代数系统出发,经由半群含幺半群一步步认识了什么叫群,进而回马探查集合上的关系,由等价关系知道了商集的存在,再结合等价关系、商集、子群和群,知道了什么是商群。虽然此时已经足以明白 Ddfinition 2 中的 torus Lie Group,但我不想停下探究的步伐:为什么 Lie Group 需要是 manifold?什么是 manifold?本质上说,我们还没有真正认识 Lie Group。另外,torus 翻译为环面,论文中的示意图也显示 R n / Z n \mathbb{R}^n / \mathbb{Z}^n Rn/Zn 是个环面,但它怎么就是环面了?它的元素不就是一些 “小数部分相同的实数聚集成的等价类” 吗?要探究的还有很多。
4. Manifold(流形)
这一章本来简单介绍一下什么是 manifold 就可以了,至于其他的什么切向量、切空间啊,本无需探究,但不看看又觉得缺点什么?博客 Manifolds: A Gentle Introduction 介绍了流形、切空间、黎曼流形的概念,流形的概念好理解,但切空间和黎曼流形比较难理解。我把这篇博客翻译成了中文,并加上了自己的注释,想了解多一点的话,可以去看看。这里只截一些图(from《流行学习及其应用》),并略微加一点注释。
那就暂且将流形理解为几何体,而欧式空间本身是一个几何体,且很简单,仅一个笛卡尔坐标系足以覆盖整个欧氏空间。而对于球面空间,虽然可以嵌入到欧式空间中加以表示,但这种欧式表示是更高维的(比流形本身维度更高)。数学研究流形的可微性。
这段里的 “柔软” 和 “硬” 是很形象的。在拓扑学中,咖啡杯和甜甜圈是同胚的,即两者拓扑结构是一样的,可以想象咖啡杯内的物质是可以流动的,只要保持杯柄的圈还在,杯子就可以靠这种流动性变成甜甜圈的样子;而如果把它们嵌入到欧式空间中分析其几何机构,则大不一样。至于拓扑结构和几何结构,可参考《拓扑结构和几何结构的区别》,下面是摘抄:
光滑流形可以看作是介于两者之间的模型,其无穷小的结构是 “硬” 的,而整体结构则是 “柔软” 的。这就是前面所说的 “局部具有欧几里德空间性质”。
以地球作为物理意义解释。
以 “地图描述地球局部” 引出如何描述流形(就是之后要讲的坐标卡)。
接着举了一个非流形的例子,形象地说明了流形的要求:局部都是简单的。这比直接告诉你 “能同胚地映射到欧式空间” 要形象得多。
这类似于拓扑空间的概念,拓扑空间加上度量结构,就成了度量空间,定义内积就成了内积空间。而这里,拓扑流形也是最基础的,加上微分结构,就成了微分流形。如果在切空间上定义内积,又成了黎曼流形。
但是这个内积很奇怪,像把微分操作看作向量一样奇怪,求内积的操作竟然被称为 metric 张量,咱不懂,一时也难以接受。
这是一个例子,把圆 S 1 S^1 S1 映射至 R \mathbb{R} R,比较简单。
用例子解释了什么是坐标图和图册。我称这个过程是 “给局部邻域安装坐标系”。
相邻的局部可能会有重叠,由于安装坐标系的映射是同胚的,所以,同一区域上的不同坐标图之间是同胚的,即可进行坐标变换。这类似于以前学的直角坐标变换。
这个就和翻译中的例子一样了。
拓扑流形的正式定义。它暂时没要求可微性。
根据定义,欧氏空间本身是一个拓扑流形,它比较简单,只需一个坐标图就能覆盖整个空间,坐标图的映射是恒等映射。
这里正式定义的局部坐标系就是前面说的坐标卡,它是一个二元组 ( U , φ ) (U, \varphi) (U,φ), U U U 是局部坐标邻域, φ \varphi φ 叫局部坐标映射,对于一点 p ∈ M p \in M p∈M,映射结果 φ ( p ) \varphi(p) φ(p) 叫坐标,这就是为什么我说这个过程像是 “安装坐标系”。
看,这本质上就是以前说的直角坐标变换。
定义什么是 M M M 上的微分结构:如果坐标系之间的相互变换 ψ ∘ φ − 1 , φ ∘ ψ − 1 \psi \circ \varphi^{-1}, ~ \varphi \circ \psi^{-1} ψ∘φ−1, φ∘ψ−1 是连续可微的,图册就是微分结构。
这里只是简单地给出了切向量和切空间的定义,实际上它很奇怪,要想了解,移步我翻译的博客。这里我只能说,它其实就是对函数的求导操作。
关于这俩定义,知道有这个概念就行吧,暂时也看不懂怎么回事。
5. 为什么 A Lie Group is a Manifold?
对于 Group 和 Manifold 的概念都有所了解了,可还是不明白为什么李群既是群又是流形,为何是流形?B 站系列视频《李群和李代数–北师大 梁灿彬教授》中说,乘法和求逆的光滑性(smooth)是来源于光滑流形的。啊!一切都结束了!强迫症的我,心中的疙瘩消失了。【老教授的课很精彩,感兴趣的可以去看看。北师大的课都有录像的吗?】
仔细回去观察了一遍,确实是这么回事。
- 在群的定义中,并没有什么连续性啊光滑性的要求,甚至连拓扑都没有,仅仅是一个点集。
- 除了李群外,还有一个拓扑群的概念:
看,在点集上加了拓扑之后,我们就可以研究其连续性了,本质上,最基本的点集上是没有连通性、连续性等概念的。这个拓扑群仅仅要求点集上有拓扑,群的乘法运算和求逆运算是连续的。 - 而到了 Lie Group,有了更加严格的要求:点集上不光有拓扑结构,它必须是光滑流形,即拓扑是豪斯多夫的,拓扑空间能局部地映射至欧式空间,且流形上的微分结构是光滑的。这就能说 “乘法和求逆运算是光滑函数” 了,否则是没有这个概念的。
这些逐渐严格的条件也许会给李群带来更好的性质,具体是怎样的,以后碰到了再说吧。这里给出群随其点集逐渐条件严格的过程: 点集 → 拓扑空间 → 光滑流形 群 → 连续性 拓扑 拓扑群 → 光滑性 光滑流形 李群 点集 \to 拓扑空间 \to 光滑流形 \\ ~ \\ 群 \xrightarrow[连续性]{拓扑} 拓扑群 \xrightarrow[光滑性]{光滑流形} 李群 点集→拓扑空间→光滑流形 群拓扑连续性拓扑群光滑流形光滑性李群 对于李群的介绍就暂时这样吧。
其实之前也关注过流形中的那句话:“开邻域 U U U 和 d d d 维欧几里德空间 R d \mathbb{R}^d Rd 的一个开子集同胚”,它会不会就是李群要求是 manifold 的原因?当时想的是,这会使李群在某种程度上可以像欧式空间那样计算简单。现在看来也差不多是这个意思。另外,谈及可微,应该是只在欧氏空间有,注意到,定义流形的微分结构时,是根据坐标变换映射 ψ ∘ φ − 1 : R d → R d \psi \circ \varphi^{-1} : \mathbb{R}^d \to \mathbb{R}^d ψ∘φ−1:Rd→Rd 说的。
最后的疑问:为什么 R n / Z n \mathbb{R}^n / \mathbb{Z}^n Rn/Zn 称为环面?
3.3.3 中:torus 翻译为环面,论文中的示意图也显示 R n / Z n \mathbb{R}^n / \mathbb{Z}^n Rn/Zn 是个环面,但它怎么就是环面了?它的元素不就是一些 “小数部分相同的实数聚集成的等价类” 吗?它和环有啥关系吗?
这要用到同胚的概念,看 Wikipedia 怎么说:
从几何上来讲,二维环面确实是两个圆的笛卡尔积,它甚至是环面的定义,是嵌入三维欧氏空间的一种方式。如下图所示。
不只是圆的乘积是 torus,任何同胚于环面的拓扑空间都是 torus,咖啡杯和甜甜圈的表面都是 torus。
论文中指出
[
x
]
↦
e
x
p
(
2
π
i
x
)
[x] \mapsto exp(2\pi ix)
[x]↦exp(2πix) 是一个微分同胚,而
e
x
p
(
2
π
i
x
)
exp(2\pi ix)
exp(2πix) 正好表示复平面上的一个单位圆,如此一来,
R
n
/
Z
n
\mathbb{R}^n / \mathbb{Z}^n
Rn/Zn 同胚于
S
1
×
S
1
×
⋯
×
S
1
S^1 \times S^1 \times \dots \times S^1
S1×S1×⋯×S1,自然就是环面了。
最后,3. 中并没有介绍环,【至于 ( R , + , ⋅ ) (\mathbb {R} ,+,\cdot ) (R,+,⋅) is a field,后面会讲到】也未答复。
这里的环就是纯纯的代数系统了,而没有拓扑的概念。最直观的就是实数 R \mathbb{R} R 带上加法和乘法。
这么一看, ( R , + , ⋅ ) (\mathbb{R}, +, \cdot) (R,+,⋅) 就是平时说的实数域吗?