运算:对
x
,
y
∈
R
∪
{
−
∞
}
x,y{\in}{\mathbb{R}{\cup}\{{-}\infty \}}
x,y∈R∪{−∞},热带加法
x
⊕
y
=
max
{
x
,
y
}
x{\oplus}y{=}\max\{x,y\}
x⊕y=max{x,y},热带乘法
x
⊗
y
=
x
+
y
x{\otimes}y{=}x{+}y
x⊗y=x+y
单位元:
−
∞
{-}\infty
−∞是热带加的单位元
max
{
x
,
−
∞
}
=
x
\max\{x,{-}\infty\}{=}x
max{x,−∞}=x,
0
0
0是热带乘的单位元
x
+
0
=
x
x{+}0{=}x
x+0=x
2️⃣基本性质:环❌
/
/
/半环✅
/
/
/半域✅
为何是半环:满足以下运算定律
运算律
对热带加法
对热带乘法
交换律
max
{
a
,
b
}
=
max
{
b
,
a
}
\max\{a,b\}{=}\max\{b,a\}
max{a,b}=max{b,a}
a
+
b
=
b
+
a
a{+}b{=}b{+}a
a+b=b+a
结合律
max
{
max
{
a
,
b
}
,
c
}
=
max
{
a
,
max
{
b
,
c
}
}
\max\{\max\{a,b\},c\}{=}\max\{a,\max\{b,c\}\}
max{max{a,b},c}=max{a,max{b,c}}
a
+
(
b
+
c
)
=
(
b
+
a
)
+
c
a{+}(b{+}c){=}(b{+}a){+}c
a+(b+c)=(b+a)+c
分配律:
a
+
max
{
b
,
c
}
=
max
{
a
+
b
,
a
+
c
}
a{+}\max\{b,c\}{=}\max\{a{+}b,a{+}c\}
a+max{b,c}=max{a+b,a+c}
关于逆元:对热带半环,加法逆元❌
/
/
/乘法逆元✅
逆元类型
定义
对热带半环
加法逆元
若
x
⊕
y
=
0
x{\oplus}y{=}\mathbb{0}
x⊕y=0则
y
y
y为
x
x
x加法逆元,记
y
=
−
x
y{=}{-}x
y=−x
不存在
max
{
x
,
y
}
=
−
∞
\max\{x,y\}{=}{-}{\infty}
max{x,y}=−∞故不为环
乘法逆元
若
x
⊗
y
=
1
x{\otimes}y{=}\mathbb{1}
x⊗y=1则
y
y
y为
x
x
x乘法逆元,记
y
=
x
−
1
y{=}x^{{-}1}
y=x−1
存在
x
+
(
−
x
)
=
0
x{+}(-x){=}0
x+(−x)=0故为半域,故可进行除法
a
⊘
b
=
a
⊗
b
⊗
(
−
1
)
a{\oslash}b{=}a{\otimes}b^{{\otimes}({-}1)}
a⊘b=a⊗b⊗(−1)
a
⊘
b
=
a
−
b
a{\oslash}b{=}a{-}b
a⊘b=a−b
N/A
\text{N/A}
N/A
热带多项式
&
\&
&有理函数:令
x
=
⟨
x
1
,
.
.
.
,
x
d
⟩
\mathbf{x}{=}\langle{x_1,...,x_d}\rangle
x=⟨x1,...,xd⟩
热带多项式:相当于多个线性函数(更精确地说,仿射函数)取最大值
算式
结构
转换回常规运算
性质
热带单项式
L
i
(
x
)
=
c
i
⊗
x
1
⊗
a
1
⊗
⋯
⊗
x
d
⊗
a
d
L_i(\mathbf{x}){=}c_i{\otimes}x_{1}^{{\otimes}a_{1}}{\otimes}{\cdots}{\otimes}x_{d}^{{\otimes}a_{d}}
Li(x)=ci⊗x1⊗a1⊗⋯⊗xd⊗ad
c
i
+
a
i
1
x
1
+
⋯
+
a
i
d
x
d
c_i{+}a_{i1}x_{1}{+}{\cdots}{+}a_{id}x_{d}
ci+ai1x1+⋯+aidxd
线性函数
热带多项式
f
(
x
)
=
L
1
⊕
L
2
⊕
⋯
⊕
L
r
f(\mathbf{x}){=}L_1{\oplus}L_2{\oplus}{\cdots}{\oplus}L_r
f(x)=L1⊕L2⊕⋯⊕Lr
max
{
L
1
(
x
)
,
.
.
.
,
L
r
(
x
)
}
\max\{L_1(\mathbf{x}),...,L_r(\mathbf{x})\}
max{L1(x),...,Lr(x)}
凸函数
热带有理函数:热带多项式的热带商,且定义
f
(
x
)
⊘
g
(
x
)
=
f
(
x
)
−
g
(
x
)
f(\mathbf{x}){\oslash}g(\mathbf{x}){=}f(\mathbf{x}){-}g(\mathbf{x})
f(x)⊘g(x)=f(x)−g(x)
符号
定义
转换回常规运算
性质
h
(
x
)
h(\mathbf{x})
h(x)
f
(
x
)
⊘
g
(
x
)
f(\mathbf{x}){\oslash}g(\mathbf{x})
f(x)⊘g(x)
max
{
L
1
,
.
.
.
,
L
r
}
−
max
{
L
1
′
,
.
.
.
,
L
s
′
}
\max\{L_1,...,L_r\}{-}\max\{L_1',...,L_s'\}
max{L1,...,Lr}−max{L1′,...,Ls′}
两凸函数差(
DC
\text{DC}
DC函数)
补充:对
x
=
⟨
x
1
,
.
.
.
,
x
d
⟩
\mathbf{x}{=}\langle{x_1,...,x_d}\rangle
x=⟨x1,...,xd⟩及
α
i
=
⟨
a
i
1
,
.
.
.
,
a
i
d
⟩
\boldsymbol{\alpha_i}{=}\langle{a_{i1},...,a_{id}}\rangle
αi=⟨ai1,...,aid⟩,多项式
c
i
⊗
x
1
⊗
a
i
1
⊗
⋯
⊗
x
d
⊗
a
i
d
c_i{\otimes}x_{1}^{{\otimes}a_{i1}}{\otimes}{\cdots}{\otimes}x_{d}^{{\otimes}a_{id}}
ci⊗x1⊗ai1⊗⋯⊗xd⊗aid可简写为
c
i
x
α
i
c_i\mathbf{x}^{\boldsymbol{\alpha_i}}
cixαi
x
1
,
.
.
.
,
x
d
x_1,...,x_d
x1,...,xd构成的所有热带多项式集
(
T
[
x
1
,
.
.
.
,
x
d
]
,
max
,
+
,
−
∞
,
0
)
(\mathbb{T}[x_1,...,x_d],\max,{+},{-}{\infty},{0})
(T[x1,...,xd],max,+,−∞,0)
❌
x
1
,
.
.
.
,
x
d
x_1,...,x_d
x1,...,xd构成的所有热带有理函数集
(
T
(
x
1
,
.
.
.
,
x
d
)
,
max
,
+
,
−
∞
,
0
)
(\mathbb{T}(x_1,...,x_d),\max,{+},{-}{\infty},{0})
(T(x1,...,xd),max,+,−∞,0)
✅
向量值函数:将不同的函数
/
/
/多项式一次拼接
向量函数类型
函数
R
d
→
R
p
\boldsymbol{\mathbb{R}^d{\to}\mathbb{R}^{p}}
Rd→Rp的定义
补充
热带多项式
F
f
:
F
(
x
)
=
(
f
1
(
x
)
,
.
.
.
,
f
p
(
x
)
)
F_f{:\,}F(\mathbf{x}){=}(f_1(\mathbf{x}),...,f_p(\mathbf{x}))
Ff:F(x)=(f1(x),...,fp(x))
Pol
(
d
,
p
)
\text{Pol}(d,p)
Pol(d,p)为所有
F
f
:
R
d
→
R
p
F_f{:\,}\mathbb{R}^d{\to}\mathbb{R}^{p}
Ff:Rd→Rp函数集
热带有理函数
F
h
:
F
(
x
)
=
(
h
1
(
x
)
,
.
.
.
,
h
p
(
x
)
)
F_h{:\,}F(\mathbf{x}){=}(h_1(\mathbf{x}),...,h_p(\mathbf{x}))
Fh:F(x)=(h1(x),...,hp(x))
Rat
(
d
,
p
)
\text{Rat}(d,p)
Rat(d,p)为所有
F
h
:
R
d
→
R
p
F_h{:\,}\mathbb{R}^d{\to}\mathbb{R}^{p}
Fh:Rd→Rp函数集
1.2.
\textbf{1.2. }
1.2. 热带超曲面与牛顿对偶
1️⃣热带超曲面
定义:考虑热带多项式
f
(
x
)
=
max
{
L
1
(
x
)
,
.
.
.
,
L
r
(
x
)
}
f(\mathbf{x}){=}\max\{L_1(\mathbf{x}),...,L_r(\mathbf{x})\}
f(x)=max{L1(x),...,Lr(x)}
形式定义:
T
(
f
)
=
{
x
∈
R
d
∣
c
i
x
α
i
=
c
j
x
α
j
=
f
(
x
)
,
i
≠
j
}
\mathcal{T}(f){=}\{\mathbf{x}{\in}\mathbb{R}^d\mid{}c_i\mathbf{x}^{\boldsymbol{\alpha_i}}{=}c_j\mathbf{x}^{\boldsymbol{\alpha_j}}{=}f(\mathbf{x}),i{\neq}j\}
T(f)={x∈Rd∣cixαi=cjxαj=f(x),i=j},当
d
=
2
d{=}2
d=2时从热带超曲面退化为热带曲线
直观理解:多项式由最高平面
max
{
L
1
(
x
)
,
.
.
.
,
L
r
(
x
)
}
\max\{L_1(\mathbf{x}),...,L_r(\mathbf{x})\}
max{L1(x),...,Lr(x)}拼接成,热带超曲面即两最高平面连接处
基本含义:在某点
x
\mathbf{x}
x至少两单项式同时取得最大值,即
L
i
(
x
)
=
L
j
(
x
)
=
max
{
L
1
(
x
)
,
.
.
.
,
L
r
(
x
)
}
L_i(\mathbf{x}){=}L_j(\mathbf{x}){=}\max\{L_1(\mathbf{x}),...,L_r(\mathbf{x})\}
Li(x)=Lj(x)=max{L1(x),...,Lr(x)}
本质:将
f
(
x
)
=
max
{
L
1
(
x
)
,
.
.
.
,
L
r
(
x
)
}
f(\mathbf{x}){=}\max\{L_1(\mathbf{x}),...,L_r(\mathbf{x})\}
f(x)=max{L1(x),...,Lr(x)}划分为多个凸胞腔
直观理解:每个凸胞腔都是一个单项式“称霸”的区域,即每个凸胞腔内
f
(
x
)
f(\mathbf{x})
f(x)可用一单项式精确描述
形式定义:单项式
c
j
x
α
j
c_j\mathbf{x}^{\alpha_j}
cjxαj取得最大值的胞腔是
{
x
∈
R
d
∣
c
j
+
α
j
T
x
≥
c
i
+
α
i
T
x
,
∀
i
≠
j
}
\{\mathbf{x}{\in}\mathbb{R}^d\mid{}c_j{+}{\boldsymbol{\alpha_j}}^{T}\mathbf{x}{\geq}c_i{+}{\boldsymbol{\alpha_i}}^{T}\mathbf{x},\forall{i{\neq}j}\}
{x∈Rd∣cj+αjTx≥ci+αiTx,∀i=j}
2️⃣牛顿多边形及牛顿对偶
第一步:以
f
(
x
1
,
x
2
)
=
(
1
⊗
x
1
2
)
⊕
(
1
⊗
x
2
2
)
⊕
(
2
⊗
x
1
⊗
x
2
)
⊕
(
2
⊗
x
1
)
⊕
(
2
⊗
x
2
)
⊕
(
2
)
f(x_1,x_2){=}(1{\otimes}x_1^2){\oplus}(1{\otimes}x_2^2){\oplus}(2{\otimes}x_1{\otimes}x_2){\oplus}(2{\otimes}x_1){\oplus}(2{\otimes}x_2){\oplus}(2)
f(x1,x2)=(1⊗x12)⊕(1⊗x22)⊕(2⊗x1⊗x2)⊕(2⊗x1)⊕(2⊗x2)⊕(2)为例,提取因子
单项式
x
1
\boldsymbol{x_1}
x1次方
x
2
\boldsymbol{x_2}
x2次方
常数项
指数点
α
\boldsymbol{\alpha}
α
c
\boldsymbol{c}
c
1
⊗
x
1
2
1{\otimes}x_1^2
1⊗x12
2
2
2
0
0
0
1
1
1
α
1
=
(
2
,
0
)
\alpha_1{=}(2,0)
α1=(2,0)
c
1
=
1
c_1{=}1
c1=1
1
⊗
x
2
2
1{\otimes}x_2^2
1⊗x22
0
0
0
2
2
2
1
1
1
α
2
=
(
0
,
2
)
\alpha_2{=}(0,2)
α2=(0,2)
c
2
=
1
c_2{=}1
c2=1
2
⊗
x
1
⊗
x
2
2{\otimes}x_1{\otimes}x_2
2⊗x1⊗x2
1
1
1
1
1
1
2
2
2
α
3
=
(
1
,
1
)
\alpha_3{=}(1,1)
α3=(1,1)
c
3
=
2
c_3{=}2
c3=2
2
⊗
x
1
2{\otimes}x_1
2⊗x1
1
1
1
0
0
0
2
2
2
α
4
=
(
1
,
0
)
\alpha_4{=}(1,0)
α4=(1,0)
c
4
=
2
c_4{=}2
c4=2
2
⊗
x
2
2{\otimes}x_2
2⊗x2
0
0
0
1
1
1
2
2
2
α
5
=
(
0
,
1
)
\alpha_5{=}(0,1)
α5=(0,1)
c
5
=
2
c_5{=}2
c5=2
2
2
2
0
0
0
0
0
0
2
2
2
α
6
=
(
0
,
0
)
\alpha_6{=}(0,0)
α6=(0,0)
c
6
=
2
c_6{=}2
c6=2
之后步:(注意所谓上表面,即表面法向量与
d
d
d维中从最后一维
/
/
/高度维夹角为锐角)
操作
描述
牛顿多边形
Δ
(
f
)
\Delta(f)
Δ(f)
取所有指数点
α
{\alpha}
α的凸包(相当于用橡皮筋围住最外围点)
多面体
P
(
f
)
\mathcal{P}(f)
P(f)
基于牛顿多边形,在
α
{\alpha}
α基础上增加一个值为
c
c
c的维度,成为
(
α
i
,
c
i
)
(\boldsymbol{\alpha_i},c_i)
(αi,ci)
对偶细分
δ
(
f
)
\delta(f)
δ(f)
将多面体
P
(
f
)
\mathcal{P}(f)
P(f)上表面的边和顶点,垂直投影回到底部牛顿多边形
Δ
(
f
)
\Delta(f)
Δ(f)
最后步:对牛顿多边形
Δ
(
f
)
\Delta(f)
Δ(f)上的对偶细分
δ
(
f
)
\delta(f)
δ(f),建立对偶细分
δ
(
f
)
\delta(f)
δ(f)和热带超曲面
T
(
f
)
\mathcal{T}(f)
T(f)的联系
对偶定理:
T
(
f
)
{\mathcal{T}(f)}
T(f)线性区域数
=
P
(
f
)
{=}\mathcal{P}(f)
=P(f)上表面顶点数
≤
P
(
f
)
{\leq}\mathcal{P}(f)
≤P(f)总顶点数
3️⃣线性区域:
含义:
F
F
F定义域中保持其线性的最大的连通子集,即同一线性区域内不同的两点都线性可达
性质:当
F
F
F为热带多项式(凸函数)时其线性区域为凸,当
F
F
F为热带有理函数(
DC
\text{DC}
DC函数)时其线性区域非凸
意义:
F
F
F线性区域数量记为
N
(
F
)
\mathcal{N}(F)
N(F),一个神经网络能划分出更多线性区域,去拟合能力更强
1.3.
\textbf{1.3. }
1.3. 热带多项式的几何学描述
0️⃣闵可夫斯基和:形式定义与一些延申
形式定义:对两集合
P
1
/
P
2
P_1/P_2
P1/P2而言,其
Minkowski
\text{Minkowski}
Minkowski和为
P
1
+
P
2
:=
{
x
1
+
x
2
∣
x
1
∈
P
1
,
x
2
∈
P
2
}
P_1{+}P_2 \mathrel{\text{:=}}\{x_1{+}x_2 \mid x_1{\in}P_1,x_2{\in}P_2\}
P1+P2:={x1+x2∣x1∈P1,x2∈P2}
直观理解:将形状
P
2
P_2
P2的原点,在形状
P
1
P_1
P1每个点上移动,移动过程中
P
2
P_2
P2扫描的区域即
Minkowski
\text{Minkowski}
Minkowski和
对多面体:多面体
P
(
f
)
\mathcal{P}(f)
P(f)合
P
(
g
)
\mathcal{P}(g)
P(g)的
Minko.
\text{Minko.}
Minko.和,即顶点集
V
(
P
(
f
)
)
\mathcal{V}(\mathcal{P}(f))
V(P(f))和
V
(
P
(
g
)
)
\mathcal{V}(\mathcal{P}(g))
V(P(g))的
Minko.
\text{Minko.}
Minko.和,再求凸包
结构上:
f
f
f一单项式
L
i
=
c
i
+
a
i
1
x
1
+
⋯
+
a
i
d
x
d
⇔
对应
P
(
f
)
L_i{=}c_i{+}a_{i1}x_{1}{+}{\cdots}{+}a_{id}x_{d}{\xLeftrightarrow{对应}}\mathcal{P}(f)
Li=ci+ai1x1+⋯+aidxd对应P(f)一生成顶点
(
α
i
,
c
i
)
=
(
a
i
1
,
.
.
.
,
a
i
d
,
c
i
)
(\boldsymbol{\alpha_i},c_i){=}(a_{i1},...,a_{id},c_i)
(αi,ci)=(ai1,...,aid,ci)
运算上:
f
f
f单项式的热带运算
⇔
等价
{\xLeftrightarrow{等价}}
等价对
P
(
f
)
\mathcal{P}(f)
P(f)顶点的几何变换,具体如下
单项式的热带运算
转为常规运算
相当于对多面体中…
L
1
⊗
⋯
⊗
L
n
L_1{\otimes}{\cdots}{\otimes}L_n
L1⊗⋯⊗Ln
L
1
+
⋯
+
L
n
L_1{+}{\cdots}{+}L_n
L1+⋯+Ln
将
(
α
i
,
c
i
)
(\boldsymbol{\alpha_i},c_i)
(αi,ci)求和变成求
(
α
1
+
⋯
+
α
n
,
c
1
+
⋯
+
c
n
)
(\boldsymbol{\alpha_1{+}{\cdots}{+}\alpha_n},c_1{+}{\cdots}{+}{c_n})
(α1+⋯+αn,c1+⋯+cn)
L
i
⊗
a
L_i^{{\otimes}a}
Li⊗a
a
L
i
aL_i
aLi
放缩
(
α
i
,
c
i
)
(\boldsymbol{\alpha_i},c_i)
(αi,ci)成
(
a
α
i
,
a
c
i
)
(a\boldsymbol{\alpha_i},ac_i)
(aαi,aci)
运算上:
f
=
L
1
⊕
⋯
⊕
L
n
f{=}L_1{\oplus}{\cdots}{\oplus}L_n
f=L1⊕⋯⊕Ln可转化为
f
=
max
{
L
1
,
.
.
.
,
L
n
}
f{=}\max\{L_1,...,L_n\}
f=max{L1,...,Ln},即求
{
(
α
1
,
c
1
)
,
.
.
.
,
(
α
n
,
c
n
)
}
\{(\boldsymbol{\alpha_1},c_1),...,(\boldsymbol{\alpha_n},c_n)\}
{(α1,c1),...,(αn,cn)}凸包
多项式与多面体:
热带幂
f
⊗
a
f^{{\otimes}a}
f⊗a:相当于缩放,即
P
(
f
⊗
a
)
=
a
P
(
f
)
\mathcal{P}(f^{{\otimes}a}){=}a\mathcal{P}(f)
P(f⊗a)=aP(f)
领域
操作
解释
热带运算
热带幂
f
⊗
a
f^{{\otimes}a}
f⊗a
相当于
a
×
f
a{\times}f
a×f,即每个单项式系数
c
i
c_i
ci和指数
α
i
=
{
a
i
1
,
.
.
,
a
i
d
}
\boldsymbol{\alpha_i}{=}\{a_{i1},..,a_{id}\}
αi={ai1,..,aid}乘上
a
a
a
几何变换
缩放
每个顶点
(
α
i
,
c
i
)
(\boldsymbol{\alpha_i},c_i)
(αi,ci)变为
(
a
α
i
,
a
c
i
)
(a\boldsymbol{\alpha_i},ac_i)
(aαi,aci),即每个顶点都相对原点拉伸
a
a
a倍
热带积
f
⊗
g
f{\otimes}g
f⊗g:相当于闵可夫斯基和,即
P
(
f
⊗
g
)
=
P
(
f
)
+
P
(
g
)
\mathcal{P}(f{\otimes}g){=}\mathcal{P}(f){+}\mathcal{P}(g)
P(f⊗g)=P(f)+P(g)
领域
操作
解释
热带运算
热带积
f
⊗
g
f{\otimes}g
f⊗g
f
f
f每个单项式与
g
g
g每个单项式热带乘(相加)再热带加(求
max
\max
max)
几何变换
多面体
Minko.
\text{Minko.}
Minko.和
P
(
f
)
\mathcal{P}(f)
P(f)每个顶点与
P
(
g
)
\mathcal{P}(g)
P(g)每个顶点坐标依次相加,再求凸包
热带和
f
⊕
g
f{\oplus}g
f⊕g:相当于顶点联合的凸包,即
P
(
f
⊕
g
)
=
Conv
(
V
(
P
(
f
)
)
∪
V
(
P
(
g
)
)
)
\mathcal{P}(f{\oplus}g){=}\text{Conv}(\mathcal{V}(\mathcal{P}(f)){\cup}\mathcal{V}(\mathcal{P}(g)))
P(f⊕g)=Conv(V(P(f))∪V(P(g)))
领域
操作
解释
热带运算
热带积
f
⊕
g
f{\oplus}g
f⊕g
f
f
f和
g
g
g各自的多项式合在一起,再求合一起后的最大值
几何变换
顶点联合的凸包
P
(
f
)
\mathcal{P}(f)
P(f)与
P
(
g
)
\mathcal{P}(g)
P(g)中所有顶点合在一起,对合一起后的点集求凸包
参数说明:
d
+
1
d{+}1
d+1表示多面体
P
1
,
.
.
.
,
P
k
P_1,...,P_k
P1,...,Pk所处空间的维度,
m
m
m为收集所有
P
i
P_i
Pi棱后非平行棱的总数
定理内容:令多面体
P
1
,
.
.
.
,
P
k
P_1,...,P_k
P1,...,Pk进行
Minkowski
\text{Minkowski}
Minkowski和后新多面体顶点数为
N
N
N,则
N
≤
2
∑
j
=
0
d
C
m
−
1
j
N{\leq}2\displaystyle{\sum_{j=0}^{d}\mathbf{C}_{m{-}1}^j}
N≤2j=0∑dCm−1j
取等条件:每个多面体
P
i
P_i
Pi都为带状多面体,且构成每个
P
i
P_i
Pi的线段都处于一般位置
定理的关键推论:新生成多面体上表面有多少顶点,即多项式有多少线性区域数
条件改变:
P
1
,
.
.
.
,
P
k
P_1,...,P_k
P1,...,Pk从任意形状的多面体限定为了带状多面体,
结论改变:
P
1
,
.
.
.
,
P
k
P_1,...,P_k
P1,...,Pk进行
Minkowski
\text{Minkowski}
Minkowski和后新多面体上表面顶点数为
N
′
N'
N′,则
N
′
≤
∑
j
=
0
d
C
m
j
N'{\leq}\displaystyle{\sum_{j=0}^{d}\mathbf{C}_{m}^j}
N′≤j=0∑dCmj
取等条件:
P
i
P_i
Pi所有
m
m
m条线段都处于一般位置,新多面体(
d
+
1
d{+}1
d+1维)顶点投影回
d
d
d维后都处于一般位置
(补充)关于一般位置:即任意
k
k
k个点不会被维度
≤
k
−
2
{\leq}k{-}2
≤k−2的空间容纳,例如四点不共面,三点不共线
2.
\textbf{2. }
2. 神经网络的热带几何
&
\textbf{\&}
&代数
2.1.
\textbf{2.1. }
2.1. 神经网络及其假设
1️⃣神经网络的数学模型:定义一个共
L
(
n
)
L^{(n)}
L(n)层全连接的前馈网络
%以下内容我对原文的符号体系做了一些改变,力求符合我自己的符号体系,在审查时请忽略符号体系的改变
对于每一层
L
(
i
)
L^{(i)}
L(i):
结构:输入
d
i
−
1
d_{i-1}
di−1维的
x
(
i
−
1
)
\textbf{x}^{(i-1)}
x(i−1)后输出
d
i
d_i
di维的
x
(
i
)
\textbf{x}^{(i)}
x(i),每层可学习参数有权重矩阵
A
d
i
×
d
i
−
1
\mathbf{A}_{d_i{\times}d_{i-1}}
Adi×di−1及偏置向量
b
d
i
\mathbf{b}_{d_i}
bdi
运算:先将
x
(
i
−
1
)
\textbf{x}^{(i-1)}
x(i−1)输入仿射变换
ρ
i
(
x
(
i
−
1
)
)
=
A
d
i
×
d
i
−
1
x
(
i
−
1
)
+
b
d
i
\rho_i{\left(\textbf{x}^{(i-1)}\right)}{=}\mathbf{A}_{d_i{\times}d_{i-1}}\textbf{x}^{(i-1)}{+}\mathbf{b}_{d_i}
ρi(x(i−1))=Adi×di−1x(i−1)+bdi再激活
x
i
=
σ
i
(
ρ
i
(
x
(
i
−
1
)
)
)
\textbf{x}_{i}{=}\sigma_i\left(\rho_i{\left(\textbf{x}^{(i-1)}\right)}\right)
xi=σi(ρi(x(i−1)))
补充:本文
σ
i
\sigma_i
σi采用广义
ReLU
\text{ReLU}
ReLU(详见下),因为其为最典型的激活函数,也方便用热带代数描述
对于所有
L
(
n
)
L^{(n)}
L(n)层:
结构:
ν
=
(
σ
n
∘
ρ
n
)
∘
(
σ
n
−
1
∘
ρ
n
−
1
)
∘
⋯
∘
(
σ
1
∘
ρ
1
)
\nu{=}(\sigma_n{\circ}\rho_n){\circ}(\sigma_{n-1}{\circ}\rho_{n-1}){\circ}{\cdots}{\circ}(\sigma_1{\circ}\rho_1)
ν=(σn∘ρn)∘(σn−1∘ρn−1)∘⋯∘(σ1∘ρ1)即
ν
(
x
(
0
)
)
=
x
(
n
)
\nu\left(\textbf{x}^{(0)}\right){=}\textbf{x}^{(n)}
ν(x(0))=x(n),但不会
Softmax
(
x
(
n
)
)
\text{Softmax}\left(\textbf{x}^{(n)}\right)
Softmax(x(n))一下
运算:
x
(
0
)
→
σ
1
(
ρ
1
(
x
(
0
)
)
)
x
(
1
)
→
σ
2
(
ρ
2
(
x
(
1
)
)
)
x
(
2
)
→
⋯
→
x
(
n
−
1
)
→
σ
n
(
ρ
n
(
x
(
n
−
1
)
)
)
x
(
n
)
\textbf{x}^{(0)} {\xrightarrow[]{\sigma_1\left(\rho_1{\left(\textbf{x}^{(0)}\right)}\right)}} \textbf{x}^{(1)} {\xrightarrow[]{\sigma_2\left(\rho_2{\left(\textbf{x}^{(1)}\right)}\right)}} \textbf{x}^{(2)} {\to}{\cdots}{\to} \textbf{x}^{(n-1)} {\xrightarrow[]{\sigma_n\left(\rho_n{\left(\textbf{x}^{(n-1)}\right)}\right)}} \textbf{x}^{(n)}
x(0)σ1(ρ1(x(0)))x(1)σ2(ρ2(x(1)))x(2)→⋯→x(n−1)σn(ρn(x(n−1)))x(n)
对偏置向量:
b
d
i
\mathbf{b}_{d_i}
bdi的每个值都是实数,对应热带单项式的系数
c
c
c
广义
ReLU
\text{ReLU}
ReLU:即
σ
(
x
j
)
=
max
{
x
j
,
t
j
}
=
x
j
⊕
t
j
\sigma{(x_j)}{=}\max\{x_j,t_j\}{=}x_j{\oplus}t_j
σ(xj)=max{xj,tj}=xj⊕tj(逐个应用在
x
\mathbf{x}
x每维),非线性激活可用热带运算表述
可退化为其它的激活函数:当
t
=
0
t{=}0
t=0时退化为普通
ReLU
\text{ReLU}
ReLU函数,当
t
=
−
∞
t{=}{-}{\infty}
t=−∞时
σ
(
x
)
=
x
\sigma{(x)}{=}x
σ(x)=x
基础步骤:原始输入
x
(
0
)
\mathbf{x}^{(0)}
x(0),经过第
1
1
1层
L
(
1
)
L^{(1)}
L(1)的输出
x
(
1
)
\mathbf{x}^{(1)}
x(1)是怎么样的
每层输出:得到
x
(
1
)
=
max
{
(
A
d
1
×
d
0
x
(
0
)
+
b
d
1
)
,
t
d
1
}
\mathbf{x}^{(1)}{=}\max\left\{\left(\mathbf{A}_{d_1{\times}d_0}\textbf{x}^{(0)}{+}\mathbf{b}_{d_1}\right),\mathbf{t}_{d_1 }\right\}
x(1)=max{(Ad1×d0x(0)+bd1),td1}
权重分解:提取
A
d
1
×
d
0
\mathbf{A}_{d_1{\times}d_0}
Ad1×d0绝对值以分解为
A
d
1
×
d
0
(
+
)
\mathbf{A}_{d_1{\times}d_0}^{(+)}
Ad1×d0(+)和
A
d
1
×
d
0
(
−
)
\mathbf{A}_{d_1{\times}d_0}^{(-)}
Ad1×d0(−),且
A
d
1
×
d
0
=
A
d
1
×
d
0
(
+
)
−
A
d
1
×
d
0
(
−
)
\mathbf{A}_{d_1{\times}d_0}{=}\mathbf{A}_{d_1{\times}d_0}^{(+)}{-}\mathbf{A}_{d_1{\times}d_0}^{(-)}
Ad1×d0=Ad1×d0(+)−Ad1×d0(−)
恒等变换:得到
x
(
1
)
=
max
{
(
A
d
1
×
d
0
(
+
)
x
(
0
)
+
b
d
1
)
,
(
A
d
1
×
d
0
(
−
)
x
(
0
)
+
t
d
1
)
}
−
A
d
1
×
d
0
(
−
)
x
(
0
)
\mathbf{x}^{(1)}{=}\max\left\{\left(\mathbf{A}_{d_1{\times}d_0}^{(+)}\textbf{x}^{(0)}{+}\mathbf{b}_{d_1}\right),\left(\mathbf{A}_{d_1{\times}d_0}^{(-)}\textbf{x}^{(0)}{+}\mathbf{t}_{d_1}\right)\right\}{-}\mathbf{A}_{d_1{\times}d_0}^{(-)}\textbf{x}^{(0)}
x(1)=max{(Ad1×d0(+)x(0)+bd1),(Ad1×d0(−)x(0)+td1)}−Ad1×d0(−)x(0)
热带表示:设置
x
(
1
)
=
F
(
1
)
(
x
(
0
)
)
−
G
(
1
)
(
x
(
0
)
)
\mathbf{x}^{(1)}{=}F^{(1)}\left(\textbf{x}^{(0)}\right){-}G^{(1)}\left(\textbf{x}^{(0)}\right)
x(1)=F(1)(x(0))−G(1)(x(0)),(如下表)
x
(
1
)
\mathbf{x}^{(1)}
x(1)每一维都是热带有理函数
项(共
d
i
\boldsymbol{d_i}
di维)
热带算式
热带多项式
F
(
1
)
F^{(1)}
F(1)第
k
k
k维
[
b
k
⊗
(
⨂
j
(
x
j
(
0
)
)
⊗
a
k
j
(
+
)
)
]
⊕
[
t
k
⊗
(
⨂
j
(
x
j
(
0
)
)
⊗
a
k
j
(
−
)
)
]
\displaystyle\left[ b_k{\otimes}\left(\bigotimes_{j}\left(x_j^{(0)}\right)^{\otimes a_{kj}^{(+)}} \right)\right]{\oplus}\left[t_k{\otimes}\left(\bigotimes_{j}\left(x_j^{(0)}\right)^{\otimes a_{kj}^{(-)}} \right) \right]
[bk⊗(j⨂(xj(0))⊗akj(+))]⊕[tk⊗(j⨂(xj(0))⊗akj(−))]
✅
G
(
1
)
G^{(1)}
G(1)第
k
k
k维
(
⨂
j
(
x
j
(
0
)
)
⊗
a
k
j
(
−
)
)
\displaystyle\left(\bigotimes_{j}\left(x_j^{(0)}\right)^{\otimes a_{kj}^{(-)}} \right)
(j⨂(xj(0))⊗akj(−))
✅
最终结论:输出
x
(
1
)
\mathbf{x}^{(1)}
x(1)每一维严格满足热带有理函数定义,即
x
(
1
)
\mathbf{x}^{(1)}
x(1)每一维都是热带有理函数
归纳步骤:第
i
i
i层
L
(
i
)
L^{(i)}
L(i)的输出
x
(
i
)
\mathbf{x}^{(i)}
x(i),经过第
i
+
1
i{+}1
i+1层
L
(
i
+
1
)
L^{(i+1)}
L(i+1)的输出
x
(
i
+
1
)
\mathbf{x}^{(i+1)}
x(i+1)是怎么样的
符号
值
每维依然是热带多项式
H
(
i
+
1
)
H^{(i+1)}
H(i+1)
(
A
d
i
+
1
×
d
i
(
+
)
F
(
i
)
+
A
d
i
+
1
×
d
i
(
−
)
G
(
i
)
+
b
d
i
+
1
)
\left(\mathbf{A}_{d_{i+1}{\times}d_i}^{(+)}F^{(i)}{+}\mathbf{A}_{d_{i+1}{\times}d_i}^{(-)}G^{(i)}{+}\mathbf{b}_{d_{i+1}}\right)
(Adi+1×di(+)F(i)+Adi+1×di(−)G(i)+bdi+1)
✅
G
(
i
+
1
)
G^{(i+1)}
G(i+1)
(
A
d
i
+
1
×
d
i
(
−
)
F
(
i
)
+
A
d
i
+
1
×
d
i
(
+
)
G
(
i
)
)
\left(\mathbf{A}_{d_{i+1}{\times}d_i}^{(-)}F^{(i)}{+}\mathbf{A}_{d_{i+1}{\times}d_i}^{(+)}G^{(i)}\right)
(Adi+1×di(−)F(i)+Adi+1×di(+)G(i))
✅
F
(
i
+
1
)
F^{(i+1)}
F(i+1)
max
{
H
(
i
+
1
)
,
(
G
(
i
+
1
)
+
t
d
i
+
1
)
}
\max\left\{H^{(i+1)},\left(G^{(i+1)}{+}\mathbf{t}_{d_{i+1}}\right)\right\}
max{H(i+1),(G(i+1)+tdi+1)}
✅
仿射:
ρ
(
i
+
1
)
=
A
d
i
+
1
×
d
i
x
(
i
)
+
b
d
i
+
1
=
H
(
i
+
1
)
−
G
(
i
+
1
)
\rho^{(i+1)}{=}\mathbf{A}_{d_{i+1}{\times}d_i}\mathbf{x}^{(i)}{+}\mathbf{b}_{d_{i+1}}{=}H^{(i+1)}{-}G^{(i+1)}
ρ(i+1)=Adi+1×dix(i)+bdi+1=H(i+1)−G(i+1)
激活:
x
(
i
+
1
)
=
max
{
H
(
i
+
1
)
,
(
G
(
i
+
1
)
+
t
d
i
+
1
)
}
−
G
(
i
+
1
)
=
F
(
i
+
1
)
−
G
(
i
+
1
)
\mathbf{x}^{(i+1)}{=}\max\left\{H^{(i+1)},\left(G^{(i+1)}{+}\mathbf{t}_{d_{i+1}}\right)\right\}{-}G^{(i+1)}{=}F^{(i+1)}{-}G^{(i+1)}
x(i+1)=max{H(i+1),(G(i+1)+tdi+1)}−G(i+1)=F(i+1)−G(i+1),为一个热带有理函数
结论:每一层的输出
x
(
i
)
\mathbf{x}^{(i)}
x(i)的每一维都是一个热带有理函数
引入上界:视热带函数
f
⊘
g
f{\oslash}g
f⊘g为
n
n
n层神经网络,则
n
≤
max
{
⌈
log
2
r
f
⌉
,
⌈
log
2
r
g
⌉
}
+
2
n{\leq}\max\left\{\lceil\log_{2}{r_f}\rceil,\lceil\log_{2}{r_g}\rceil\right\}{+}2
n≤max{⌈log2rf⌉,⌈log2rg⌉}+2(
r
r
r为单项式数量)
热带符号函数:即
φ
(
x
)
=
⨁
k
=
1
m
(
b
k
⊗
(
⨂
j
=
1
n
x
j
a
k
j
)
)
\displaystyle\varphi\left(x\right){=}\bigoplus_{k = 1}^{m}\left({b}_{k}{\otimes}\left(\bigotimes_{j = 1}^{n}{x}_{j}^{{a}_{kj}}\right)\right)
φ(x)=k=1⨁m(bk⊗(j=1⨂nxjakj)),
a
k
j
a_{kj}
akj为实数(多项式中只能是整数)
评分函数:变换神经网络输出
x
(
n
)
\textbf{x}^{(n)}
x(n)以得到评分
s
(
x
(
n
)
)
s\left(\textbf{x}^{(n)}\right)
s(x(n)),如
Softmax
(
x
(
n
)
)
/
Sigmiod
(
x
(
n
)
)
\text{Softmax}\left(\textbf{x}^{(n)}\right)/\text{Sigmiod}\left(\textbf{x}^{(n)}\right)
Softmax(x(n))/Sigmiod(x(n))
决策规则:用于分类,比如二元分类中
s
(
x
(
n
)
)
s\left(\textbf{x}^{(n)}\right)
s(x(n))大于阈值
c
c
c就归为一类,小于阈值
c
c
c就归为另一类
决策边界:使评分等于决策阈值的神经网络输入集
B
:
=
{
x
(
0
)
∈
R
d
0
∣
s
(
ν
(
x
(
0
)
)
)
=
s
(
x
(
n
)
)
=
c
}
\mathcal{B}{:=}\left\{\textbf{x}^{(0)}{\in}\mathbb{R}^{d_0}|s\left(\nu\left(\textbf{x}^{(0)}\right)\right){=}s\left(\textbf{x}^{(n)}\right){=}c\right\}
B:={x(0)∈Rd0∣s(ν(x(0)))=s(x(n))=c}
ν
\nu
ν最后一层
L
(
n
)
L^{(n)}
L(n)只进行仿射变换不激活,即令
t
d
n
=
−
∞
\mathbf{t}_{d_n}{=}{-}\boldsymbol{{\infty}}
tdn=−∞使
σ
(
x
(
n
)
)
=
max
{
x
(
n
)
,
−
∞
}
=
x
(
n
)
\sigma{\left(\textbf{x}^{(n)}\right)}{=}\max\left\{\textbf{x}^{(n)},{-}\boldsymbol{{\infty}}\right\}{=}\textbf{x}^{(n)}
σ(x(n))=max{x(n),−∞}=x(n)
ν
\nu
ν可写为两热带多项式
f
(
x
(
0
)
)
f\left(\textbf{x}^{(0)}\right)
f(x(0))和
g
(
x
(
0
)
)
g\left(\textbf{x}^{(0)}\right)
g(x(0))的热带商,即
ν
(
x
(
0
)
)
=
f
(
x
(
0
)
)
⊘
g
(
x
(
0
)
)
\nu\left(\textbf{x}^{(0)}\right){=}f\left(\textbf{x}^{(0)}\right){\oslash}g\left(\textbf{x}^{(0)}\right)
ν(x(0))=f(x(0))⊘g(x(0))
结论一:决策边界划分出来的正区域的数量,存在一个天然的上界
N
(
f
)
\mathcal{N}(f)
N(f)
正区:即评分大于阈值
s
(
ν
(
x
(
0
)
)
)
≥
c
s\left(\nu\left(\textbf{x}^{(0)}\right)\right){\geq}c
s(ν(x(0)))≥c,即
f
(
x
(
0
)
)
≥
g
(
x
(
0
)
)
+
s
−
1
(
c
)
f\left(\textbf{x}^{(0)}\right){\geq}g\left(\textbf{x}^{(0)}\right){+}s^{-1}(c)
f(x(0))≥g(x(0))+s−1(c)的区域,含义如下
结构
如何理解
f
(
x
(
0
)
)
f\left(\textbf{x}^{(0)}\right)
f(x(0))
好比一个"地表"(多项式),由
N
(
f
)
\mathcal{N}(f)
N(f)个平坦"斜面"(某个单项式)拼接而成
g
(
x
(
0
)
)
+
s
−
1
(
c
)
g\left(\textbf{x}^{(0)}\right){+}s^{-1}(c)
g(x(0))+s−1(c)
好比一个"水面"(多项式),由
N
(
g
)
\mathcal{N}(g)
N(g)个平坦"斜面"(某个单项式)拼接而成
正区
“地表"没有被"水面"淹没的地方,即好比"孤岛”
结论:对
f
(
x
(
0
)
)
f\left(\textbf{x}^{(0)}\right)
f(x(0))每块"斜面",或被淹没
/
/
/与其他"斜面"一起构成"孤岛",故"孤岛"定少于"斜面"
结论二:神经网络的决策边界
B
\mathcal{B}
B,被一个更完整的热带超曲面包含
上表面:即
h
(
x
(
0
)
)
=
max
{
f
(
x
(
0
)
)
,
(
g
(
x
(
0
)
)
+
s
−
1
(
c
)
)
}
h\left(\textbf{x}^{(0)}\right){=}\max\left\{f\left(\textbf{x}^{(0)}\right),\left(g\left(\textbf{x}^{(0)}\right){+}s^{-1}(c)\right)\right\}
h(x(0))=max{f(x(0)),(g(x(0))+s−1(c))},好比“可见地貌”(“水面”
+
+
+“孤岛”)
超曲面:即
T
(
h
(
x
(
0
)
)
)
\mathcal{T}\left(h\left(\textbf{x}^{(0)}\right)\right)
T(h(x(0))),表示“可见地貌”上的所有"斜面"的"棱线",这些"棱线"分为三类
类型
如何理解
“海岸线”
即决策边界
B
\mathcal{B}
B,也就是
f
(
x
(
0
)
)
=
g
(
x
(
0
)
)
+
s
−
1
(
c
)
f\left(\textbf{x}^{(0)}\right){=}g\left(\textbf{x}^{(0)}\right){+}s^{-1}(c)
f(x(0))=g(x(0))+s−1(c)"地表"和"水面"等高的地方
“陆地线”
T
(
f
(
x
(
0
)
)
)
\mathcal{T}\left(f\left(\textbf{x}^{(0)}\right)\right)
T(f(x(0)))的被“海岸线”(决策边界)截去的上半部分
“海洋线”
T
(
g
(
x
(
0
)
)
+
s
−
1
(
c
)
)
\mathcal{T}\left(g\left(\textbf{x}^{(0)}\right){+}s^{-1}(c)\right)
T(g(x(0))+s−1(c))的被“海岸线”(决策边界)截去的下半部分
结论:神经网络的决策边界
B
\mathcal{B}
B被热带超曲面
T
(
h
)
\mathcal{T}(h)
T(h)容纳,即
B
⊆
T
(
h
)
\mathcal{B}{\subseteq}\mathcal{T}(h)
B⊆T(h)
2.3.2.
\textbf{2.3.2. }
2.3.2. 神经网络的热带几何演化
1️⃣知识回顾:递推公式与几何变换
逐层递推:设神经网络
L
(
i
)
L^{(i)}
L(i)层输出为两热带多项式的热带商
x
(
i
)
=
F
(
i
)
(
x
(
i
−
1
)
)
−
G
(
i
)
(
x
(
i
−
1
)
)
\mathbf{x}^{(i)}{=}F^{(i)}\left(\textbf{x}^{(i-1)}\right){-}G^{(i)}\left(\textbf{x}^{(i-1)}\right)
x(i)=F(i)(x(i−1))−G(i)(x(i−1)),则
{
G
(
i
+
1
)
=
(
A
d
i
+
1
×
d
i
(
−
)
F
(
i
)
+
A
d
i
+
1
×
d
i
(
+
)
G
(
i
)
)
F
(
i
+
1
)
=
max
{
(
A
d
i
+
1
×
d
i
(
+
)
F
(
i
)
+
A
d
i
+
1
×
d
i
(
−
)
G
(
i
)
+
b
d
i
+
1
)
,
(
A
d
i
+
1
×
d
i
(
−
)
F
(
i
)
+
A
d
i
+
1
×
d
i
(
+
)
G
(
i
)
+
t
d
i
+
1
)
}
\begin{cases} G^{(i+1)}{=}\left(\mathbf{A}_{d_{i+1}{\times}d_i}^{(-)}F^{(i)}{+}\mathbf{A}_{d_{i+1}{\times}d_i}^{(+)}G^{(i)}\right) \\\\ F^{(i+1)}{=}\max\left\{\left(\mathbf{A}_{d_{i+1}{\times}d_i}^{(+)}F^{(i)}{+}\mathbf{A}_{d_{i+1}{\times}d_i}^{(-)}G^{(i)}{+}\mathbf{b}_{d_{i+1}}\right),\left(\mathbf{A}_{d_{i+1}{\times}d_i}^{(-)}F^{(i)}{+}\mathbf{A}_{d_{i+1}{\times}d_i}^{(+)}G^{(i)}{+}\mathbf{t}_{d_{i+1}}\right)\right\} \end{cases}
⎩⎨⎧G(i+1)=(Adi+1×di(−)F(i)+Adi+1×di(+)G(i))F(i+1)=max{(Adi+1×di(+)F(i)+Adi+1×di(−)G(i)+bdi+1),(Adi+1×di(−)F(i)+Adi+1×di(+)G(i)+tdi+1)}
几何变换:多项式
f
f
f的运算
⇔
等价地体现
{\xLeftrightarrow{等价地体现}}
等价地体现多项式的多面体
P
(
f
)
\mathcal{P}(f)
P(f)的几何变换
多项式中
多项式的多面体中
解释
热带幂
f
⊗
a
f^{{\otimes}a}
f⊗a
P
(
f
⊗
a
)
=
a
P
(
f
)
\mathcal{P}(f^{{\otimes}a}){=}a\mathcal{P}(f)
P(f⊗a)=aP(f)
相当于缩放
热带积
f
⊗
g
f{\otimes}g
f⊗g
P
(
f
⊗
g
)
=
P
(
f
)
+
P
(
g
)
\mathcal{P}(f{\otimes}g){=}\mathcal{P}(f){+}\mathcal{P}(g)
P(f⊗g)=P(f)+P(g)
相当于闵可夫斯基和
热带和
f
⊕
g
f{\oplus}g
f⊕g
P
(
f
⊕
g
)
=
Conv
(
V
(
P
(
f
)
)
∪
V
(
P
(
g
)
)
)
\mathcal{P}(f{\oplus}g){=}\text{Conv}(\mathcal{V}(\mathcal{P}(f)){\cup}\mathcal{V}(\mathcal{P}(g)))
P(f⊕g)=Conv(V(P(f))∪V(P(g)))
第
1
1
1层:代入递归,注
b
k
(
1
)
/
t
k
(
1
)
b_k^{(1)}/t_k^{(1)}
bk(1)/tk(1)为
b
d
1
/
t
d
1
\mathbf{b}_{d_{1}}/\mathbf{t}_{d_{1}}
bd1/td1第
k
k
k维,
a
k
j
(
1
)
(
+
)
/
a
k
j
(
1
)
(
−
)
a_{kj}^{(1)(+)}/a_{kj}^{(1)(-)}
akj(1)(+)/akj(1)(−)为
A
d
i
+
1
×
d
i
(
+
)
/
A
d
i
+
1
×
d
i
(
−
)
\mathbf{A}_{d_{i+1}{\times}d_i}^{(+)}/\mathbf{A}_{d_{i+1}{\times}d_i}^{(-)}
Adi+1×di(+)/Adi+1×di(−)第
k
k
k行
j
j
j列
结构
视角
解读
F
(
1
)
F^{(1)}
F(1)第
k
k
k维
代数
[
(
⨂
j
=
1
d
0
(
x
j
(
0
)
)
⊗
a
k
j
(
1
)
(
+
)
)
⊗
b
k
(
1
)
]
⊕
[
(
⨂
j
=
1
d
0
(
x
j
(
0
)
)
⊗
a
k
j
(
1
)
(
−
)
)
⊗
t
k
(
1
)
]
\displaystyle\left[\left(\bigotimes_{j=1}^{d_0}\left(x_j^{(0)}\right)^{\otimes a_{kj}^{(1)(+)}}\right){\otimes}b_k^{(1)}\right] {\oplus}\left[\left(\bigotimes_{j=1}^{d_0}\left(x_j^{(0)}\right)^{\otimes a_{kj}^{(1)(-)}}\right){\otimes}t_k^{(1)}\right]
[(j=1⨂d0(xj(0))⊗akj(1)(+))⊗bk(1)]⊕[(j=1⨂d0(xj(0))⊗akj(1)(−))⊗tk(1)]
G
(
1
)
G^{(1)}
G(1)第
k
k
k维
代数
(
⨂
j
=
1
d
0
(
x
j
(
0
)
)
⊗
a
k
j
(
1
)
(
−
)
)
\left(\displaystyle\bigotimes_{j=1}^{d_0}\left(x_j^{(0)}\right)^{\otimes a_{kj}^{(1)(-)}}\right)
(j=1⨂d0(xj(0))⊗akj(1)(−))
P
(
F
(
1
)
第
k
维
)
{\mathcal{P}\left(F^{(1)}第k维\right)}
P(F(1)第k维)
几何
线段
(
a
k
1
(
1
)
(
+
)
,
…
,
a
k
,
d
0
(
1
)
(
+
)
,
b
k
(
1
)
)
↔
连线
(
a
k
1
(
1
)
(
−
)
,
…
,
a
k
,
d
0
(
1
)
(
−
)
,
t
k
(
1
)
)
\left(a_{k 1}^{(1)(+)}, \ldots, a_{k, d_0}^{(1)(+)},b_k^{(1)}\right){\xleftrightarrow{连线}}\left(a_{k 1}^{(1)(-)}, \ldots, a_{k, d_0}^{(1)(-)},t_k^{(1)}\right)
(ak1(1)(+),…,ak,d0(1)(+),bk(1))连线(ak1(1)(−),…,ak,d0(1)(−),tk(1))
P
(
G
(
1
)
第
k
维
)
{\mathcal{P}\left(G^{(1)}第k维\right)}
P(G(1)第k维)
几何
单点
(
a
k
1
(
1
)
(
−
)
,
…
,
a
k
,
d
0
(
1
)
(
−
)
,
0
)
\left(a_{k 1}^{(1)(-)},\ldots, a_{k, d_0}^{(1)(-)},0\right)
(ak1(1)(−),…,ak,d0(1)(−),0)
第
2
2
2层:再代入递归,向量
/
/
/矩阵的元素符号与上类似
结构
视角
解读
F
(
2
)
F^{(2)}
F(2)第
k
k
k维
代数
形式上为两个复杂多项式的
⊕
{\oplus}
⊕
G
(
2
)
G^{(2)}
G(2)第
k
k
k维
代数
形式上为两个复杂多项式的
⊗
{\otimes}
⊗
P
(
F
(
2
)
第
k
维
)
{\mathcal{P}\left(F^{(2)}第k维\right)}
P(F(2)第k维)
第
n
n
n层:不断递归,已经是多面体了再递归
P
(
F
(
n
)
第
k
维
)
/
P
(
F
(
n
)
第
k
维
)
{\mathcal{P}\left(F^{(n)}第k维\right)}/{\mathcal{P}\left(F^{(n)}第k维\right)}
P(F(n)第k维)/P(F(n)第k维)只会生成更复杂多面体
2.3.3.
\textbf{2.3.3. }
2.3.3. 神经网络的几何复杂度
1️⃣基本思路
度量:神经网络可等价为热带多项式,而热带多项式的线性区域数目越多,神经网络就越强
目标:利用前面建立的热带几何框架,推导出这个线性区域数量的上限
2️⃣主定理
%符号体系做了"本土化"
内容:对深度为
n
n
n宽度为
d
i
,
max
d_{i,\max}
di,max的神经网络,输入维度为
d
0
d_0
d0时线性区域数量为
O
(
(
d
i
,
max
)
d
0
(
n
−
1
)
)
\mathcal{O}\left((d_{i,\max})^{d_0(n{-}1)}\right)
O((di,max)d0(n−1))