文献分享: 神经网络的热带几何分析

原论文
笔记(源文件)
笔记(PDF)
笔记(HTML)

1.   \textbf{1. } 1. 热带几何 & \textbf{\&} &热带代数

1.1.   \textbf{1.1. } 1.1. 热带半环

1️⃣基本概念:集合 + {+} +集合上的运算 + \text{+} +单位元,即 ( K , ⊕ , ⊗ , 0 , 1 ) = ( R ∪ { − ∞ } , max ⁡ , + , − ∞ , 0 ) ({K,\oplus,\otimes,\mathbb{0},\mathbb{1}}){=}({\mathbb{R}{\cup}\{{-}{\infty} \},\max,{+},{-}{\infty},0}) (K,,,0,1)=(R{},max,+,,0)

  1. 集合:所有实数加一个特殊元素(负无穷 − ∞ {-}\infty ),即 R ∪ { − ∞ } \mathbb{R}{\cup}\{{-}\infty\} R{}
  2. 运算:对 x , y ∈ R ∪ { − ∞ } x,y{\in}{\mathbb{R}{\cup}\{{-}\infty \}} x,yR{},热带加法 x ⊕ y = max ⁡ { x , y } x{\oplus}y{=}\max\{x,y\} xy=max{x,y},热带乘法 x ⊗ y = x + y x{\otimes}y{=}x{+}y xy=x+y
  3. 单位元: − ∞ {-}\infty 是热带加的单位元 max ⁡ { x , − ∞ } = x \max\{x,{-}\infty\}{=}x max{x,}=x 0 0 0是热带乘的单位元 x + 0 = x x{+}0{=}x x+0=x

2️⃣基本性质:环❌ / / /半环✅ / / /半域✅

  1. 为何是半环:满足以下运算定律
    运算律对热带加法对热带乘法
    交换律 max ⁡ { a , b } = max ⁡ { b , a } \max\{a,b\}{=}\max\{b,a\} max{a,b}=max{b,a} a + b = b + a a{+}b{=}b{+}a a+b=b+a
    结合律 max ⁡ { max ⁡ { a , b } , c } = max ⁡ { a , max ⁡ { b , c } } \max\{\max\{a,b\},c\}{=}\max\{a,\max\{b,c\}\} max{max{a,b},c}=max{a,max{b,c}} a + ( b + c ) = ( b + a ) + c a{+}(b{+}c){=}(b{+}a){+}c a+(b+c)=(b+a)+c
    • 分配律: a + max ⁡ { b , c } = max ⁡ { a + b , a + c } a{+}\max\{b,c\}{=}\max\{a{+}b,a{+}c\} a+max{b,c}=max{a+b,a+c}
  2. 关于逆元:对热带半环,加法逆元❌ / / /乘法逆元✅
    逆元类型定义对热带半环
    加法逆元 x ⊕ y = 0 x{\oplus}y{=}\mathbb{0} xy=0 y y y x x x加法逆元,记 y = − x y{=}{-}x y=x不存在 max ⁡ { x , y } = − ∞ \max\{x,y\}{=}{-}{\infty} max{x,y}=故不为环
    乘法逆元 x ⊗ y = 1 x{\otimes}y{=}\mathbb{1} xy=1 y y y x x x乘法逆元,记 y = x − 1 y{=}x^{{-}1} y=x1存在 x + ( − x ) = 0 x{+}(-x){=}0 x+(x)=0故为半域,故可进行除法
    • 所谓环:在半环的基础上,所有元素都必须有其对应的加法逆元
    • 所谓半域:在半环的基础上,除了加法单位元以外的所有元素,都必须有其对应的乘法逆元

3️⃣热带函数:有理函数(热带多项式的热带商) ← {\xleftarrow{}} 多项式 ← {\xleftarrow{}} 扩展运算

  1. 运算扩展:热带幂和热带商
    运算半环中热带半环中特殊的
    热带幂 x ⊗ a = x ⊗ ⋯ ⊗ x x^{{\otimes}a}{=}x{\otimes}{\cdots}{\otimes}x xa=xx x ⊗ a = a x x^{{\otimes}a}{=}ax xa=ax ( − ∞ ) ⊗ a = − ∞ ({-}{\infty})^{{\otimes}a}{=}{-}{\infty} ()a= ( − ∞ ) ⊗ 0 = 0 ({-}{\infty})^{{\otimes}0}{=}0 ()0=0
    热带商 a ⊘ b = a ⊗ b ⊗ ( − 1 ) a{\oslash}b{=}a{\otimes}b^{{\otimes}({-}1)} ab=ab(1) a ⊘ b = a − b a{\oslash}b{=}a{-}b ab=ab N/A \text{N/A} N/A
  2. 热带多项式 & \& &有理函数:令 x = ⟨ x 1 , . . . , x d ⟩ \mathbf{x}{=}\langle{x_1,...,x_d}\rangle x=x1,...,xd
    • 热带多项式:相当于多个线性函数(更精确地说,仿射函数)取最大值
      算式结构转换回常规运算性质
      热带单项式 L i ( x ) = c i ⊗ x 1 ⊗ a 1 ⊗ ⋯ ⊗ x d ⊗ a d L_i(\mathbf{x}){=}c_i{\otimes}x_{1}^{{\otimes}a_{1}}{\otimes}{\cdots}{\otimes}x_{d}^{{\otimes}a_{d}} Li(x)=cix1a1xdad c i + a i 1 x 1 + ⋯ + a i d x d c_i{+}a_{i1}x_{1}{+}{\cdots}{+}a_{id}x_{d} ci+ai1x1++aidxd线性函数
      热带多项式 f ( x ) = L 1 ⊕ L 2 ⊕ ⋯ ⊕ L r f(\mathbf{x}){=}L_1{\oplus}L_2{\oplus}{\cdots}{\oplus}L_r f(x)=L1L2Lr max ⁡ { L 1 ( x ) , . . . , L r ( x ) } \max\{L_1(\mathbf{x}),...,L_r(\mathbf{x})\} max{L1(x),...,Lr(x)}凸函数
    • 热带有理函数:热带多项式的热带商,且定义 f ( x ) ⊘ g ( x ) = f ( x ) − g ( x ) f(\mathbf{x}){\oslash}g(\mathbf{x}){=}f(\mathbf{x}){-}g(\mathbf{x}) f(x)g(x)=f(x)g(x)
      符号定义转换回常规运算性质
      h ( x ) h(\mathbf{x}) h(x) f ( x ) ⊘ g ( x ) f(\mathbf{x}){\oslash}g(\mathbf{x}) f(x)g(x) max ⁡ { L 1 , . . . , L r } − max ⁡ { L 1 ′ , . . . , L s ′ } \max\{L_1,...,L_r\}{-}\max\{L_1',...,L_s'\} max{L1,...,Lr}max{L1,...,Ls}两凸函数差( DC \text{DC} DC函数)
    • 补充:对 x = ⟨ x 1 , . . . , x d ⟩ \mathbf{x}{=}\langle{x_1,...,x_d}\rangle x=x1,...,xd α i = ⟨ a i 1 , . . . , a i d ⟩ \boldsymbol{\alpha_i}{=}\langle{a_{i1},...,a_{id}}\rangle αi=ai1,...,aid,多项式 c i ⊗ x 1 ⊗ a i 1 ⊗ ⋯ ⊗ x d ⊗ a i d c_i{\otimes}x_{1}^{{\otimes}a_{i1}}{\otimes}{\cdots}{\otimes}x_{d}^{{\otimes}a_{id}} cix1ai1xdaid可简写为 c i x α i c_i\mathbf{x}^{\boldsymbol{\alpha_i}} cixαi
  3. 一些推广:函数集代数结构与向量值函数
    • 函数集的代数结构:注意,热带多项式可看作热带有理函数分母为 1 = 0 \mathbb{1}{=}0 1=0
      集合半环结构半域
      x 1 , . . . , x d x_1,...,x_d x1,...,xd构成的所有热带多项式集 ( T [ x 1 , . . . , x d ] , max ⁡ , + , − ∞ , 0 ) (\mathbb{T}[x_1,...,x_d],\max,{+},{-}{\infty},{0}) (T[x1,...,xd],max,+,,0)
      x 1 , . . . , x d x_1,...,x_d x1,...,xd构成的所有热带有理函数集 ( T ( x 1 , . . . , x d ) , max ⁡ , + , − ∞ , 0 ) (\mathbb{T}(x_1,...,x_d),\max,{+},{-}{\infty},{0}) (T(x1,...,xd),max,+,,0)
    • 向量值函数:将不同的函数 / / /多项式一次拼接
      向量函数类型函数 R d → R p \boldsymbol{\mathbb{R}^d{\to}\mathbb{R}^{p}} RdRp的定义补充
      热带多项式 F f :   F ( x ) = ( f 1 ( x ) , . . . , f p ( x ) ) F_f{:\,}F(\mathbf{x}){=}(f_1(\mathbf{x}),...,f_p(\mathbf{x})) Ff:F(x)=(f1(x),...,fp(x)) Pol ( d , p ) \text{Pol}(d,p) Pol(d,p)为所有 F f :   R d → R p F_f{:\,}\mathbb{R}^d{\to}\mathbb{R}^{p} Ff:RdRp函数集
      热带有理函数 F h :   F ( x ) = ( h 1 ( x ) , . . . , h p ( x ) ) F_h{:\,}F(\mathbf{x}){=}(h_1(\mathbf{x}),...,h_p(\mathbf{x})) Fh:F(x)=(h1(x),...,hp(x)) Rat ( d , p ) \text{Rat}(d,p) Rat(d,p)为所有 F h :   R d → R p F_h{:\,}\mathbb{R}^d{\to}\mathbb{R}^{p} Fh:RdRp函数集

1.2.   \textbf{1.2. } 1.2. 热带超曲面与牛顿对偶

1️⃣热带超曲面

  1. 定义:考虑热带多项式 f ( x ) = max ⁡ { L 1 ( x ) , . . . , L r ( x ) } f(\mathbf{x}){=}\max\{L_1(\mathbf{x}),...,L_r(\mathbf{x})\} f(x)=max{L1(x),...,Lr(x)}
    image-20250706010940441
    • 形式定义: T ( f ) = { x ∈ R d ∣ c i x α i = c j x α j = f ( x ) , i ≠ j } \mathcal{T}(f){=}\{\mathbf{x}{\in}\mathbb{R}^d\mid{}c_i\mathbf{x}^{\boldsymbol{\alpha_i}}{=}c_j\mathbf{x}^{\boldsymbol{\alpha_j}}{=}f(\mathbf{x}),i{\neq}j\} T(f)={xRdcixαi=cjxαj=f(x),i=j},当 d = 2 d{=}2 d=2时从热带超曲面退化为热带曲线
    • 直观理解:多项式由最高平面 max ⁡ { L 1 ( x ) , . . . , L r ( x ) } \max\{L_1(\mathbf{x}),...,L_r(\mathbf{x})\} max{L1(x),...,Lr(x)}拼接成,热带超曲面即两最高平面连接处
    • 基本含义:在某点 x \mathbf{x} x至少两单项式同时取得最大值,即 L i ( x ) = L j ( x ) = max ⁡ { L 1 ( x ) , . . . , L r ( x ) } L_i(\mathbf{x}){=}L_j(\mathbf{x}){=}\max\{L_1(\mathbf{x}),...,L_r(\mathbf{x})\} Li(x)=Lj(x)=max{L1(x),...,Lr(x)}
  2. 本质:将 f ( x ) = max ⁡ { L 1 ( x ) , . . . , L r ( x ) } f(\mathbf{x}){=}\max\{L_1(\mathbf{x}),...,L_r(\mathbf{x})\} f(x)=max{L1(x),...,Lr(x)}划分为多个凸胞腔
    • 直观理解:每个凸胞腔都是一个单项式“称霸”的区域,即每个凸胞腔内 f ( x ) f(\mathbf{x}) f(x)可用一单项式精确描述
    • 形式定义:单项式 c j x α j c_j\mathbf{x}^{\alpha_j} cjxαj取得最大值的胞腔是 { x ∈ R d ∣ c j + α j T x ≥ c i + α i T x , ∀ i ≠ j } \{\mathbf{x}{\in}\mathbb{R}^d\mid{}c_j{+}{\boldsymbol{\alpha_j}}^{T}\mathbf{x}{\geq}c_i{+}{\boldsymbol{\alpha_i}}^{T}\mathbf{x},\forall{i{\neq}j}\} {xRdcj+αjTxci+αiTx,i=j}

2️⃣牛顿多边形及牛顿对偶

  1. 第一步:以 f ( x 1 , x 2 ) = ( 1 ⊗ x 1 2 ) ⊕ ( 1 ⊗ x 2 2 ) ⊕ ( 2 ⊗ x 1 ⊗ x 2 ) ⊕ ( 2 ⊗ x 1 ) ⊕ ( 2 ⊗ x 2 ) ⊕ ( 2 ) f(x_1,x_2){=}(1{\otimes}x_1^2){\oplus}(1{\otimes}x_2^2){\oplus}(2{\otimes}x_1{\otimes}x_2){\oplus}(2{\otimes}x_1){\oplus}(2{\otimes}x_2){\oplus}(2) f(x1,x2)=(1x12)(1x22)(2x1x2)(2x1)(2x2)(2)为例,提取因子
    单项式 x 1 \boldsymbol{x_1} x1次方 x 2 \boldsymbol{x_2} x2次方常数项指数点 α \boldsymbol{\alpha} α c \boldsymbol{c} c
    1 ⊗ x 1 2 1{\otimes}x_1^2 1x12 2 2 2 0 0 0 1 1 1 α 1 = ( 2 , 0 ) \alpha_1{=}(2,0) α1=(2,0) c 1 = 1 c_1{=}1 c1=1
    1 ⊗ x 2 2 1{\otimes}x_2^2 1x22 0 0 0 2 2 2 1 1 1 α 2 = ( 0 , 2 ) \alpha_2{=}(0,2) α2=(0,2) c 2 = 1 c_2{=}1 c2=1
    2 ⊗ x 1 ⊗ x 2 2{\otimes}x_1{\otimes}x_2 2x1x2 1 1 1 1 1 1 2 2 2 α 3 = ( 1 , 1 ) \alpha_3{=}(1,1) α3=(1,1) c 3 = 2 c_3{=}2 c3=2
    2 ⊗ x 1 2{\otimes}x_1 2x1 1 1 1 0 0 0 2 2 2 α 4 = ( 1 , 0 ) \alpha_4{=}(1,0) α4=(1,0) c 4 = 2 c_4{=}2 c4=2
    2 ⊗ x 2 2{\otimes}x_2 2x2 0 0 0 1 1 1 2 2 2 α 5 = ( 0 , 1 ) \alpha_5{=}(0,1) α5=(0,1) c 5 = 2 c_5{=}2 c5=2
    2 2 2 0 0 0 0 0 0 2 2 2 α 6 = ( 0 , 0 ) \alpha_6{=}(0,0) α6=(0,0) c 6 = 2 c_6{=}2 c6=2
  2. 之后步:(注意所谓上表面,即表面法向量与 d d d维中从最后一维 / / /高度维夹角为锐角)
    image-20250706020701704
    操作描述
    牛顿多边形 Δ ( f ) \Delta(f) Δ(f)取所有指数点 α {\alpha} α的凸包(相当于用橡皮筋围住最外围点)
    多面体 P ( f ) \mathcal{P}(f) P(f)基于牛顿多边形,在 α {\alpha} α基础上增加一个值为 c c c的维度,成为 ( α i , c i ) (\boldsymbol{\alpha_i},c_i) (αi,ci)
    对偶细分 δ ( f ) \delta(f) δ(f)将多面体 P ( f ) \mathcal{P}(f) P(f)上表面的边和顶点,垂直投影回到底部牛顿多边形 Δ ( f ) \Delta(f) Δ(f)
  3. 最后步:对牛顿多边形 Δ ( f ) \Delta(f) Δ(f)上的对偶细分 δ ( f ) \delta(f) δ(f),建立对偶细分 δ ( f ) \delta(f) δ(f)和热带超曲面 T ( f ) \mathcal{T}(f) T(f)的联系
    偶细分 δ ( f ) \boldsymbol{\delta(f)} δ(f)对应超曲面 T ( f ) \boldsymbol{\mathcal{T}(f)} T(f)含义 δ ( f ) \boldsymbol{\delta(f)} δ(f)示例对应 T ( f ) \boldsymbol{\mathcal{T}(f)} T(f)示例
    k k k维面 ( d − k ) (d{-}k) (dk)维面 k + 1 k{+}1 k+1 L i L_i Li打平 N/A \text{N/A} N/A N/A \text{N/A} N/A
    ( k = 1 ) (k{=}1) (k=1)折痕 ( k = 1 / d = 2 ) (k{=}1/d{=}2) (k=1/d=2) L i L_i Li打平线 ( 1 , 0 ) → ( 0 , 0 ) (1,0){\to}(0,0) (1,0)(0,0)折痕( 2 ⊗ x 1 = 2 2{\otimes}x_1{=}2 2x1=2)
    顶点 ( k = 0 ) (k{=}0) (k=0)线性区 ( k = 0 / d = 2 ) (k{=}0/d{=}2) (k=0/d=2) L i L_i Li主导 ( 1 , 0 ) (1,0) (1,0)线性区( 2 ⊗ x 1 2{\otimes}x_1 2x1主导)
    • 对偶定理: T ( f ) {\mathcal{T}(f)} T(f)线性区域数 = P ( f ) {=}\mathcal{P}(f) =P(f)上表面顶点数 ≤ P ( f ) {\leq}\mathcal{P}(f) P(f)总顶点数

3️⃣线性区域:

  1. 含义: F F F定义域中保持其线性的最大的连通子集,即同一线性区域内不同的两点都线性可达
  2. 性质:当 F F F为热带多项式(凸函数)时其线性区域为凸,当 F F F为热带有理函数( DC \text{DC} DC函数)时其线性区域非凸
  3. 意义: F F F线性区域数量记为 N ( F ) \mathcal{N}(F) N(F),一个神经网络能划分出更多线性区域,去拟合能力更强

1.3.   \textbf{1.3. } 1.3. 热带多项式的几何学描述

0️⃣闵可夫斯基和:形式定义与一些延申

  1. 形式定义:对两集合 P 1 / P 2 P_1/P_2 P1/P2而言,其 Minkowski \text{Minkowski} Minkowski和为 P 1 + P 2 := { x 1 + x 2 ∣ x 1 ∈ P 1 , x 2 ∈ P 2 } P_1{+}P_2 \mathrel{\text{:=}}\{x_1{+}x_2 \mid x_1{\in}P_1,x_2{\in}P_2\} P1+P2:={x1+x2x1P1,x2P2}
  2. 直观理解:将形状 P 2 P_2 P2的原点,在形状 P 1 P_1 P1每个点上移动,移动过程中 P 2 P_2 P2扫描的区域即 Minkowski \text{Minkowski} Minkowski
  3. 对多面体:多面体 P ( f ) \mathcal{P}(f) P(f) P ( g ) \mathcal{P}(g) P(g) Minko. \text{Minko.} Minko.和,即顶点集 V ( P ( f ) ) \mathcal{V}(\mathcal{P}(f)) V(P(f)) V ( P ( g ) ) \mathcal{V}(\mathcal{P}(g)) V(P(g)) Minko. \text{Minko.} Minko.和,再求凸包
  4. 一些扩展:两个(或多个)线段的 Minkowski \text{Minkowski} Minkowski和(一线段每个点与另一线段每个点相加),为带状多面体
    image-20250707023657057

1️⃣构建与变换:热带多项式的几何学

  1. 单项式与顶点:
    • 结构上: f f f一单项式 L i = c i + a i 1 x 1 + ⋯ + a i d x d ⇔ 对应 P ( f ) L_i{=}c_i{+}a_{i1}x_{1}{+}{\cdots}{+}a_{id}x_{d}{\xLeftrightarrow{对应}}\mathcal{P}(f) Li=ci+ai1x1++aidxd对应 P(f)一生成顶点 ( α i , c i ) = ( a i 1 , . . . , a i d , c i ) (\boldsymbol{\alpha_i},c_i){=}(a_{i1},...,a_{id},c_i) (αi,ci)=(ai1,...,aid,ci)
    • 运算上: f f f单项式的热带运算 ⇔ 等价 {\xLeftrightarrow{等价}} 等价 P ( f ) \mathcal{P}(f) P(f)顶点的几何变换,具体如下
      单项式的热带运算转为常规运算相当于对多面体中…
      L 1 ⊗ ⋯ ⊗ L n L_1{\otimes}{\cdots}{\otimes}L_n L1Ln L 1 + ⋯ + L n L_1{+}{\cdots}{+}L_n L1++Ln ( α i , c i ) (\boldsymbol{\alpha_i},c_i) (αi,ci)求和变成求 ( α 1 + ⋯ + α n , c 1 + ⋯ + c n ) (\boldsymbol{\alpha_1{+}{\cdots}{+}\alpha_n},c_1{+}{\cdots}{+}{c_n}) (α1++αn,c1++cn)
      L i ⊗ a L_i^{{\otimes}a} Lia a L i aL_i aLi放缩 ( α i , c i ) (\boldsymbol{\alpha_i},c_i) (αi,ci) ( a α i , a c i ) (a\boldsymbol{\alpha_i},ac_i) (aαi,aci)
  2. 单项式到多项式
    • 结构上:多个单项式热带相加 ⇔ 等价 {\xLeftrightarrow{等价}} 等价 多个顶点求凸包以生成成多面体
    • 运算上: f = L 1 ⊕ ⋯ ⊕ L n f{=}L_1{\oplus}{\cdots}{\oplus}L_n f=L1Ln可转化为 f = max ⁡ { L 1 , . . . , L n } f{=}\max\{L_1,...,L_n\} f=max{L1,...,Ln},即求 { ( α 1 , c 1 ) , . . . , ( α n , c n ) } \{(\boldsymbol{\alpha_1},c_1),...,(\boldsymbol{\alpha_n},c_n)\} {(α1,c1),...,(αn,cn)}凸包
  3. 多项式与多面体:
    • 热带幂 f ⊗ a f^{{\otimes}a} fa:相当于缩放,即 P ( f ⊗ a ) = a P ( f ) \mathcal{P}(f^{{\otimes}a}){=}a\mathcal{P}(f) P(fa)=aP(f)
      领域操作解释
      热带运算热带幂 f ⊗ a f^{{\otimes}a} fa相当于 a × f a{\times}f a×f,即每个单项式系数 c i c_i ci和指数 α i = { a i 1 , . . , a i d } \boldsymbol{\alpha_i}{=}\{a_{i1},..,a_{id}\} αi={ai1,..,aid}乘上 a a a
      几何变换缩放每个顶点 ( α i , c i ) (\boldsymbol{\alpha_i},c_i) (αi,ci)变为 ( a α i , a c i ) (a\boldsymbol{\alpha_i},ac_i) (aαi,aci),即每个顶点都相对原点拉伸 a a a
    • 热带积 f ⊗ g f{\otimes}g fg:相当于闵可夫斯基和,即 P ( f ⊗ g ) = P ( f ) + P ( g ) \mathcal{P}(f{\otimes}g){=}\mathcal{P}(f){+}\mathcal{P}(g) P(fg)=P(f)+P(g)
      领域操作解释
      热带运算热带积 f ⊗ g f{\otimes}g fg f f f每个单项式与 g g g每个单项式热带乘(相加)再热带加(求 max ⁡ \max max)
      几何变换多面体 Minko. \text{Minko.} Minko. P ( f ) \mathcal{P}(f) P(f)每个顶点与 P ( g ) \mathcal{P}(g) P(g)每个顶点坐标依次相加,再求凸包
    • 热带和 f ⊕ g f{\oplus}g fg:相当于顶点联合的凸包,即 P ( f ⊕ g ) = Conv ( V ( P ( f ) ) ∪ V ( P ( g ) ) ) \mathcal{P}(f{\oplus}g){=}\text{Conv}(\mathcal{V}(\mathcal{P}(f)){\cup}\mathcal{V}(\mathcal{P}(g))) P(fg)=Conv(V(P(f))V(P(g)))
      领域操作解释
      热带运算热带积 f ⊕ g f{\oplus}g fg f f f g g g各自的多项式合在一起,再求合一起后的最大值
      几何变换顶点联合的凸包 P ( f ) \mathcal{P}(f) P(f) P ( g ) \mathcal{P}(g) P(g)中所有顶点合在一起,对合一起后的点集求凸包

2️⃣理论保证:如何界定新生成多面体的顶点数

  1. Gritzmann-Sturmfels \text{Gritzmann-Sturmfels} Gritzmann-Sturmfels定理:生成多面体最多多少个顶点
    • 参数说明: d + 1 d{+}1 d+1表示多面体 P 1 , . . . , P k P_1,...,P_k P1,...,Pk所处空间的维度, m m m为收集所有 P i P_i Pi棱后非平行棱的总数
    • 定理内容:令多面体 P 1 , . . . , P k P_1,...,P_k P1,...,Pk进行 Minkowski \text{Minkowski} Minkowski和后新多面体顶点数为 N N N,则 N ≤ 2 ∑ j = 0 d C m − 1 j N{\leq}2\displaystyle{\sum_{j=0}^{d}\mathbf{C}_{m{-}1}^j} N2j=0dCm1j
    • 取等条件:每个多面体 P i P_i Pi都为带状多面体,且构成每个 P i P_i Pi的线段都处于一般位置
  2. 定理的关键推论:新生成多面体上表面有多少顶点,即多项式有多少线性区域数
    • 条件改变: P 1 , . . . , P k P_1,...,P_k P1,...,Pk任意形状的多面体限定为了带状多面体
    • 结论改变: P 1 , . . . , P k P_1,...,P_k P1,...,Pk进行 Minkowski \text{Minkowski} Minkowski和后新多面体上表面顶点数为 N ′ N' N,则 N ′ ≤ ∑ j = 0 d C m j N'{\leq}\displaystyle{\sum_{j=0}^{d}\mathbf{C}_{m}^j} Nj=0dCmj
    • 取等条件: P i P_i Pi所有 m m m条线段都处于一般位置,新多面体( d + 1 d{+}1 d+1维)顶点投影回 d d d维后都处于一般位置
  3. (补充)关于一般位置:即任意 k k k个点不会被维度 ≤ k − 2 {\leq}k{-}2 k2的空间容纳,例如四点不共面,三点不共线

2.   \textbf{2. } 2. 神经网络的热带几何 & \textbf{\&} &代数

2.1.   \textbf{2.1. } 2.1. 神经网络及其假设

1️⃣神经网络的数学模型:定义一个共 L ( n ) L^{(n)} L(n)层全连接的前馈网络 %以下内容我对原文的符号体系做了一些改变,力求符合我自己的符号体系,在审查时请忽略符号体系的改变

  1. 对于每一层 L ( i ) L^{(i)} L(i)
    • 结构:输入 d i − 1 d_{i-1} di1维的 x ( i − 1 ) \textbf{x}^{(i-1)} x(i1)后输出 d i d_i di维的 x ( i ) \textbf{x}^{(i)} x(i),每层可学习参数有权重矩阵 A d i × d i − 1 \mathbf{A}_{d_i{\times}d_{i-1}} Adi×di1及偏置向量 b d i \mathbf{b}_{d_i} bdi
    • 运算:先将 x ( i − 1 ) \textbf{x}^{(i-1)} x(i1)输入仿射变换 ρ i ( x ( i − 1 ) ) = A d i × d i − 1 x ( i − 1 ) + b d i \rho_i{\left(\textbf{x}^{(i-1)}\right)}{=}\mathbf{A}_{d_i{\times}d_{i-1}}\textbf{x}^{(i-1)}{+}\mathbf{b}_{d_i} ρi(x(i1))=Adi×di1x(i1)+bdi再激活 x i = σ i ( ρ i ( x ( i − 1 ) ) ) \textbf{x}_{i}{=}\sigma_i\left(\rho_i{\left(\textbf{x}^{(i-1)}\right)}\right) xi=σi(ρi(x(i1)))
    • 补充:本文 σ i \sigma_i σi采用广义 ReLU \text{ReLU} ReLU(详见下),因为其为最典型的激活函数,也方便用热带代数描述
  2. 对于所有 L ( n ) L^{(n)} L(n)层:
    • 结构: ν = ( σ n ∘ ρ n ) ∘ ( σ n − 1 ∘ ρ n − 1 ) ∘ ⋯ ∘ ( σ 1 ∘ ρ 1 ) \nu{=}(\sigma_n{\circ}\rho_n){\circ}(\sigma_{n-1}{\circ}\rho_{n-1}){\circ}{\cdots}{\circ}(\sigma_1{\circ}\rho_1) ν=(σnρn)(σn1ρn1)(σ1ρ1) ν ( x ( 0 ) ) = x ( n ) \nu\left(\textbf{x}^{(0)}\right){=}\textbf{x}^{(n)} ν(x(0))=x(n),但不会 Softmax ( x ( n ) ) \text{Softmax}\left(\textbf{x}^{(n)}\right) Softmax(x(n))一下
    • 运算: x ( 0 ) → σ 1 ( ρ 1 ( x ( 0 ) ) ) x ( 1 ) → σ 2 ( ρ 2 ( x ( 1 ) ) ) x ( 2 ) → ⋯ → x ( n − 1 ) → σ n ( ρ n ( x ( n − 1 ) ) ) x ( n ) \textbf{x}^{(0)} {\xrightarrow[]{\sigma_1\left(\rho_1{\left(\textbf{x}^{(0)}\right)}\right)}} \textbf{x}^{(1)} {\xrightarrow[]{\sigma_2\left(\rho_2{\left(\textbf{x}^{(1)}\right)}\right)}} \textbf{x}^{(2)} {\to}{\cdots}{\to} \textbf{x}^{(n-1)} {\xrightarrow[]{\sigma_n\left(\rho_n{\left(\textbf{x}^{(n-1)}\right)}\right)}} \textbf{x}^{(n)} x(0)σ1(ρ1(x(0))) x(1)σ2(ρ2(x(1))) x(2)x(n1)σn(ρn(x(n1))) x(n)

2️⃣三条较温和的假设:使神经网络行为能严格对应热带运算

  1. 对权重矩阵: A d i × d i − 1 \mathbf{A}_{d_i{\times}d_{i-1}} Adi×di1每个权重都是整数,这种假设是温和的(见下例),对应了热带单项式的指数
    [ 0.5 1.2 2.5 2 ] ( 实数 ) → 用有理数估计无理数 [ 0.5 1.2 2.5 1.4 ] ( 有理数 ) → 通分以去除小数点 [ 5 12 25 14 ] ( 整数 ) \begin{bmatrix} 0.5 & 1.2 \\ 2.5 & \sqrt{2} \end{bmatrix}(实数){\xrightarrow{用有理数估计无理数}}\begin{bmatrix} 0.5 & 1.2 \\ 2.5 & 1.4 \end{bmatrix}(有理数){\xrightarrow{通分以去除小数点}}\begin{bmatrix} 5 & 12 \\ 25 & 14 \end{bmatrix}(整数) [0.52.51.22 ](实数)用有理数估计无理数 [0.52.51.21.4](有理数)通分以去除小数点 [5251214](整数)
  2. 对偏置向量: b d i \mathbf{b}_{d_i} bdi的每个值都是实数,对应热带单项式的系数 c c c
  3. 广义 ReLU \text{ReLU} ReLU:即 σ ( x j ) = max ⁡ { x j , t j } = x j ⊕ t j \sigma{(x_j)}{=}\max\{x_j,t_j\}{=}x_j{\oplus}t_j σ(xj)=max{xj,tj}=xjtj(逐个应用在 x \mathbf{x} x每维),非线性激活可用热带运算表述
    • 可退化为其它的激活函数:当 t = 0 t{=}0 t=0时退化为普通 ReLU \text{ReLU} ReLU函数,当 t = − ∞ t{=}{-}{\infty} t= σ ( x ) = x \sigma{(x)}{=}x σ(x)=x
    • 不可退化为平滑激活函数:如 sigmoid/tanh \text{sigmoid/tanh} sigmoid/tanh

2.2.   \textbf{2.2. } 2.2. 神经网络的热带代数

1️⃣从神经网络到热带有理函数:写在前面

  1. 灵感所在:热带多项式为凸 → 两凸之差非凸 {\xrightarrow{两凸之差非凸}} 两凸之差非凸 热带有理函数非凸;神经网络也非凸,是否等于热带有理函数
  2. 计算要素: A x + b \mathbf{A}\textbf{x}{+}\mathbf{b} Ax+b过程中,神经网络中的参数最终会到热带多项式的哪里
    A x + b \mathbf{A}\textbf{x}{+}\mathbf{b} Ax+b过程热带代数中备注
    A x \mathbf{A}\textbf{x} Ax中的 a k j x j a_{kj}x_j akjxj ( x j ) ⊗ a k j (x_j)^{\otimes a_{kj}} (xj)akj权重参数 → 变为 {\xrightarrow{变为}} 变为 热带多项式中的幂,幂必为整数故权重只能为整数
    + b {+}\mathbf{b} +b中的 + b k {+}b_k +bk ⊗ b k \otimes{b_k} bk偏置参数 → 变为 {\xrightarrow{变为}} 变为 热带多项式的系数

2️⃣从神经网络到热带有理函数:递归证明(全文最核心部分)

  1. 基础步骤:原始输入 x ( 0 ) \mathbf{x}^{(0)} x(0),经过第 1 1 1 L ( 1 ) L^{(1)} L(1)的输出 x ( 1 ) \mathbf{x}^{(1)} x(1)是怎么样的
    • 每层输出:得到 x ( 1 ) = max ⁡ { ( A d 1 × d 0 x ( 0 ) + b d 1 ) , t d 1 } \mathbf{x}^{(1)}{=}\max\left\{\left(\mathbf{A}_{d_1{\times}d_0}\textbf{x}^{(0)}{+}\mathbf{b}_{d_1}\right),\mathbf{t}_{d_1 }\right\} x(1)=max{(Ad1×d0x(0)+bd1),td1}
    • 权重分解:提取 A d 1 × d 0 \mathbf{A}_{d_1{\times}d_0} Ad1×d0绝对值以分解为 A d 1 × d 0 ( + ) \mathbf{A}_{d_1{\times}d_0}^{(+)} Ad1×d0(+) A d 1 × d 0 ( − ) \mathbf{A}_{d_1{\times}d_0}^{(-)} Ad1×d0(),且 A d 1 × d 0 = A d 1 × d 0 ( + ) − A d 1 × d 0 ( − ) \mathbf{A}_{d_1{\times}d_0}{=}\mathbf{A}_{d_1{\times}d_0}^{(+)}{-}\mathbf{A}_{d_1{\times}d_0}^{(-)} Ad1×d0=Ad1×d0(+)Ad1×d0()
    • 恒等变换:得到 x ( 1 ) = max ⁡ { ( A d 1 × d 0 ( + ) x ( 0 ) + b d 1 ) , ( A d 1 × d 0 ( − ) x ( 0 ) + t d 1 ) } − A d 1 × d 0 ( − ) x ( 0 ) \mathbf{x}^{(1)}{=}\max\left\{\left(\mathbf{A}_{d_1{\times}d_0}^{(+)}\textbf{x}^{(0)}{+}\mathbf{b}_{d_1}\right),\left(\mathbf{A}_{d_1{\times}d_0}^{(-)}\textbf{x}^{(0)}{+}\mathbf{t}_{d_1}\right)\right\}{-}\mathbf{A}_{d_1{\times}d_0}^{(-)}\textbf{x}^{(0)} x(1)=max{(Ad1×d0(+)x(0)+bd1),(Ad1×d0()x(0)+td1)}Ad1×d0()x(0)
    • 热带表示:设置 x ( 1 ) = F ( 1 ) ( x ( 0 ) ) − G ( 1 ) ( x ( 0 ) ) \mathbf{x}^{(1)}{=}F^{(1)}\left(\textbf{x}^{(0)}\right){-}G^{(1)}\left(\textbf{x}^{(0)}\right) x(1)=F(1)(x(0))G(1)(x(0)),(如下表) x ( 1 ) \mathbf{x}^{(1)} x(1)每一维都是热带有理函数
      项(共 d i \boldsymbol{d_i} di维)热带算式热带多项式
      F ( 1 ) F^{(1)} F(1) k k k [ b k ⊗ ( ⨂ j ( x j ( 0 ) ) ⊗ a k j ( + ) ) ] ⊕ [ t k ⊗ ( ⨂ j ( x j ( 0 ) ) ⊗ a k j ( − ) ) ] \displaystyle\left[ b_k{\otimes}\left(\bigotimes_{j}\left(x_j^{(0)}\right)^{\otimes a_{kj}^{(+)}} \right)\right]{\oplus}\left[t_k{\otimes}\left(\bigotimes_{j}\left(x_j^{(0)}\right)^{\otimes a_{kj}^{(-)}} \right) \right] [bk(j(xj(0))akj(+))][tk(j(xj(0))akj())]
      G ( 1 ) G^{(1)} G(1) k k k ( ⨂ j ( x j ( 0 ) ) ⊗ a k j ( − ) ) \displaystyle\left(\bigotimes_{j}\left(x_j^{(0)}\right)^{\otimes a_{kj}^{(-)}} \right) (j(xj(0))akj())
    • 最终结论:输出 x ( 1 ) \mathbf{x}^{(1)} x(1)每一维严格满足热带有理函数定义,即 x ( 1 ) \mathbf{x}^{(1)} x(1)每一维都是热带有理函数
  2. 归纳步骤:第 i i i L ( i ) L^{(i)} L(i)的输出 x ( i ) \mathbf{x}^{(i)} x(i),经过第 i + 1 i{+}1 i+1 L ( i + 1 ) L^{(i+1)} L(i+1)的输出 x ( i + 1 ) \mathbf{x}^{(i+1)} x(i+1)是怎么样的
    符号每维依然是热带多项式
    H ( i + 1 ) H^{(i+1)} H(i+1) ( A d i + 1 × d i ( + ) F ( i ) + A d i + 1 × d i ( − ) G ( i ) + b d i + 1 ) \left(\mathbf{A}_{d_{i+1}{\times}d_i}^{(+)}F^{(i)}{+}\mathbf{A}_{d_{i+1}{\times}d_i}^{(-)}G^{(i)}{+}\mathbf{b}_{d_{i+1}}\right) (Adi+1×di(+)F(i)+Adi+1×di()G(i)+bdi+1)
    G ( i + 1 ) G^{(i+1)} G(i+1) ( A d i + 1 × d i ( − ) F ( i ) + A d i + 1 × d i ( + ) G ( i ) ) \left(\mathbf{A}_{d_{i+1}{\times}d_i}^{(-)}F^{(i)}{+}\mathbf{A}_{d_{i+1}{\times}d_i}^{(+)}G^{(i)}\right) (Adi+1×di()F(i)+Adi+1×di(+)G(i))
    F ( i + 1 ) F^{(i+1)} F(i+1) max ⁡ { H ( i + 1 ) , ( G ( i + 1 ) + t d i + 1 ) } \max\left\{H^{(i+1)},\left(G^{(i+1)}{+}\mathbf{t}_{d_{i+1}}\right)\right\} max{H(i+1),(G(i+1)+tdi+1)}
    • 仿射: ρ ( i + 1 ) = A d i + 1 × d i x ( i ) + b d i + 1 = H ( i + 1 ) − G ( i + 1 ) \rho^{(i+1)}{=}\mathbf{A}_{d_{i+1}{\times}d_i}\mathbf{x}^{(i)}{+}\mathbf{b}_{d_{i+1}}{=}H^{(i+1)}{-}G^{(i+1)} ρ(i+1)=Adi+1×dix(i)+bdi+1=H(i+1)G(i+1)
    • 激活: x ( i + 1 ) = max ⁡ { H ( i + 1 ) , ( G ( i + 1 ) + t d i + 1 ) } − G ( i + 1 ) = F ( i + 1 ) − G ( i + 1 ) \mathbf{x}^{(i+1)}{=}\max\left\{H^{(i+1)},\left(G^{(i+1)}{+}\mathbf{t}_{d_{i+1}}\right)\right\}{-}G^{(i+1)}{=}F^{(i+1)}{-}G^{(i+1)} x(i+1)=max{H(i+1),(G(i+1)+tdi+1)}G(i+1)=F(i+1)G(i+1),为一个热带有理函数
    • 结论:每一层的输出 x ( i ) \mathbf{x}^{(i)} x(i)的每一维都是一个热带有理函数
  3. 最终结论:函数 ν \nu ν满足三条假设的神经网络 ⇔ 等价于 ν {\xLeftrightarrow{等价于}}\nu 等价于 ν可以被看作一个热带有理函数

3️⃣从神经网络到热带有理函数:结论扩展

  1. 引入上界:视热带函数 f ⊘ g f{\oslash}g fg n n n层神经网络,则 n ≤ max ⁡ { ⌈ log ⁡ 2 r f ⌉ , ⌈ log ⁡ 2 r g ⌉ } + 2 n{\leq}\max\left\{\lceil\log_{2}{r_f}\rceil,\lceil\log_{2}{r_g}\rceil\right\}{+}2 nmax{log2rf,log2rg}+2( r r r为单项式数量)
  2. 新的等价:现引入并考虑连续分段线性函数,则以下三者任意二者互相等价
    • 整数系数连续分段线性函数 f − g f{-}g fg
    • 热带有理函数 f ⊘ g f{\oslash}g fg
    • 满足三条假设的神经网络
  3. 更强等价:去除权重为整数的限制的神经网络 ⇒ 可视作 {\xRightarrow{可视作}} 可视作 热带有理符号映射
    • 热带符号函数:即 φ ( x ) = ⨁ k = 1 m ( b k ⊗ ( ⨂ j = 1 n x j a k j ) ) \displaystyle\varphi\left(x\right){=}\bigoplus_{k = 1}^{m}\left({b}_{k}{\otimes}\left(\bigotimes_{j = 1}^{n}{x}_{j}^{{a}_{kj}}\right)\right) φ(x)=k=1m(bk(j=1nxjakj)) a k j a_{kj} akj为实数(多项式中只能是整数)
    • 热带有理符号映射:类似于热带有理函数,被定义为连哥哥热带符号函数的热带商 φ 1 ⊘ φ 2 \varphi_1{\oslash}\varphi_2 φ1φ2
    • 一些讨论:本文非要使用热带符号函数的“退化”热带多项式,因为只有后者才属于热带几何范畴

2.3.   \textbf{2.3. } 2.3. 神经网络的热带几何

2.3.1.   \textbf{2.3.1. } 2.3.1. 决策边界的热带几何性质

1️⃣决策边界的概念

  1. 评分函数:变换神经网络输出 x ( n ) \textbf{x}^{(n)} x(n)以得到评分 s ( x ( n ) ) s\left(\textbf{x}^{(n)}\right) s(x(n)),如 Softmax ( x ( n ) ) / Sigmiod ( x ( n ) ) \text{Softmax}\left(\textbf{x}^{(n)}\right)/\text{Sigmiod}\left(\textbf{x}^{(n)}\right) Softmax(x(n))/Sigmiod(x(n))
  2. 决策规则:用于分类,比如二元分类中 s ( x ( n ) ) s\left(\textbf{x}^{(n)}\right) s(x(n))大于阈值 c c c就归为一类,小于阈值 c c c就归为另一类
  3. 决策边界:使评分等于决策阈值的神经网络输入 B : = { x ( 0 ) ∈ R d 0 ∣ s ( ν ( x ( 0 ) ) ) = s ( x ( n ) ) = c } \mathcal{B}{:=}\left\{\textbf{x}^{(0)}{\in}\mathbb{R}^{d_0}|s\left(\nu\left(\textbf{x}^{(0)}\right)\right){=}s\left(\textbf{x}^{(n)}\right){=}c\right\} B:={x(0)Rd0s(ν(x(0)))=s(x(n))=c}

2️⃣决策边界的热带几何性

  1. 前提条件:所有研究是神经网络 ν \nu ν是怎么样的
    • ν \nu ν满足前面所提到的三个假设,即权重为整数 / / /偏置量为实数 / / /激活函数为广义 ReLU \text{ReLU} ReLU
    • ν \nu ν最后一层 L ( n ) L^{(n)} L(n)只进行仿射变换不激活,即令 t d n = − ∞ \mathbf{t}_{d_n}{=}{-}\boldsymbol{{\infty}} tdn=使 σ ( x ( n ) ) = max ⁡ { x ( n ) , − ∞ } = x ( n ) \sigma{\left(\textbf{x}^{(n)}\right)}{=}\max\left\{\textbf{x}^{(n)},{-}\boldsymbol{{\infty}}\right\}{=}\textbf{x}^{(n)} σ(x(n))=max{x(n),}=x(n)
    • ν \nu ν可写为两热带多项式 f ( x ( 0 ) ) f\left(\textbf{x}^{(0)}\right) f(x(0)) g ( x ( 0 ) ) g\left(\textbf{x}^{(0)}\right) g(x(0))的热带商,即 ν ( x ( 0 ) ) = f ( x ( 0 ) ) ⊘ g ( x ( 0 ) ) \nu\left(\textbf{x}^{(0)}\right){=}f\left(\textbf{x}^{(0)}\right){\oslash}g\left(\textbf{x}^{(0)}\right) ν(x(0))=f(x(0))g(x(0))
  2. 结论一:决策边界划分出来的正区域的数量,存在一个天然的上界 N ( f ) \mathcal{N}(f) N(f)
    • 正区:即评分大于阈值 s ( ν ( x ( 0 ) ) ) ≥ c s\left(\nu\left(\textbf{x}^{(0)}\right)\right){\geq}c s(ν(x(0)))c,即 f ( x ( 0 ) ) ≥ g ( x ( 0 ) ) + s − 1 ( c ) f\left(\textbf{x}^{(0)}\right){\geq}g\left(\textbf{x}^{(0)}\right){+}s^{-1}(c) f(x(0))g(x(0))+s1(c)的区域,含义如下
      结构如何理解
      f ( x ( 0 ) ) f\left(\textbf{x}^{(0)}\right) f(x(0))好比一个"地表"(多项式),由 N ( f ) \mathcal{N}(f) N(f)个平坦"斜面"(某个单项式)拼接而成
      g ( x ( 0 ) ) + s − 1 ( c ) g\left(\textbf{x}^{(0)}\right){+}s^{-1}(c) g(x(0))+s1(c)好比一个"水面"(多项式),由 N ( g ) \mathcal{N}(g) N(g)个平坦"斜面"(某个单项式)拼接而成
      正区“地表"没有被"水面"淹没的地方,即好比"孤岛”
    • 结论:对 f ( x ( 0 ) ) f\left(\textbf{x}^{(0)}\right) f(x(0))每块"斜面",或被淹没 / / /与其他"斜面"一起构成"孤岛",故"孤岛"定少于"斜面"
  3. 结论二:神经网络的决策边界 B \mathcal{B} B,被一个更完整的热带超曲面包含
    • 上表面:即 h ( x ( 0 ) ) = max ⁡ { f ( x ( 0 ) ) , ( g ( x ( 0 ) ) + s − 1 ( c ) ) } h\left(\textbf{x}^{(0)}\right){=}\max\left\{f\left(\textbf{x}^{(0)}\right),\left(g\left(\textbf{x}^{(0)}\right){+}s^{-1}(c)\right)\right\} h(x(0))=max{f(x(0)),(g(x(0))+s1(c))},好比“可见地貌”(“水面” + + +“孤岛”)
    • 超曲面:即 T ( h ( x ( 0 ) ) ) \mathcal{T}\left(h\left(\textbf{x}^{(0)}\right)\right) T(h(x(0))),表示“可见地貌”上的所有"斜面"的"棱线",这些"棱线"分为三类
      类型如何理解
      “海岸线”决策边界 B \mathcal{B} B,也就是 f ( x ( 0 ) ) = g ( x ( 0 ) ) + s − 1 ( c ) f\left(\textbf{x}^{(0)}\right){=}g\left(\textbf{x}^{(0)}\right){+}s^{-1}(c) f(x(0))=g(x(0))+s1(c)"地表"和"水面"等高的地方
      “陆地线” T ( f ( x ( 0 ) ) ) \mathcal{T}\left(f\left(\textbf{x}^{(0)}\right)\right) T(f(x(0)))的被“海岸线”(决策边界)截去的上半部分
      “海洋线” T ( g ( x ( 0 ) ) + s − 1 ( c ) ) \mathcal{T}\left(g\left(\textbf{x}^{(0)}\right){+}s^{-1}(c)\right) T(g(x(0))+s1(c))的被“海岸线”(决策边界)截去的下半部分
    • 结论:神经网络的决策边界 B \mathcal{B} B被热带超曲面 T ( h ) \mathcal{T}(h) T(h)容纳,即 B ⊆ T ( h ) \mathcal{B}{\subseteq}\mathcal{T}(h) BT(h)

2.3.2.   \textbf{2.3.2. } 2.3.2. 神经网络的热带几何演化

1️⃣知识回顾:递推公式与几何变换

  1. 逐层递推:设神经网络 L ( i ) L^{(i)} L(i)层输出为两热带多项式的热带商 x ( i ) = F ( i ) ( x ( i − 1 ) ) − G ( i ) ( x ( i − 1 ) ) \mathbf{x}^{(i)}{=}F^{(i)}\left(\textbf{x}^{(i-1)}\right){-}G^{(i)}\left(\textbf{x}^{(i-1)}\right) x(i)=F(i)(x(i1))G(i)(x(i1)),则
    { G ( i + 1 ) = ( A d i + 1 × d i ( − ) F ( i ) + A d i + 1 × d i ( + ) G ( i ) ) F ( i + 1 ) = max ⁡ { ( A d i + 1 × d i ( + ) F ( i ) + A d i + 1 × d i ( − ) G ( i ) + b d i + 1 ) , ( A d i + 1 × d i ( − ) F ( i ) + A d i + 1 × d i ( + ) G ( i ) + t d i + 1 ) } \begin{cases} G^{(i+1)}{=}\left(\mathbf{A}_{d_{i+1}{\times}d_i}^{(-)}F^{(i)}{+}\mathbf{A}_{d_{i+1}{\times}d_i}^{(+)}G^{(i)}\right) \\\\ F^{(i+1)}{=}\max\left\{\left(\mathbf{A}_{d_{i+1}{\times}d_i}^{(+)}F^{(i)}{+}\mathbf{A}_{d_{i+1}{\times}d_i}^{(-)}G^{(i)}{+}\mathbf{b}_{d_{i+1}}\right),\left(\mathbf{A}_{d_{i+1}{\times}d_i}^{(-)}F^{(i)}{+}\mathbf{A}_{d_{i+1}{\times}d_i}^{(+)}G^{(i)}{+}\mathbf{t}_{d_{i+1}}\right)\right\} \end{cases} G(i+1)=(Adi+1×di()F(i)+Adi+1×di(+)G(i))F(i+1)=max{(Adi+1×di(+)F(i)+Adi+1×di()G(i)+bdi+1),(Adi+1×di()F(i)+Adi+1×di(+)G(i)+tdi+1)}
  2. 几何变换:多项式 f f f的运算 ⇔ 等价地体现 {\xLeftrightarrow{等价地体现}} 等价地体现 多项式的多面体 P ( f ) \mathcal{P}(f) P(f)的几何变换
    多项式中多项式的多面体中解释
    热带幂 f ⊗ a f^{{\otimes}a} fa P ( f ⊗ a ) = a P ( f ) \mathcal{P}(f^{{\otimes}a}){=}a\mathcal{P}(f) P(fa)=aP(f)相当于缩放
    热带积 f ⊗ g f{\otimes}g fg P ( f ⊗ g ) = P ( f ) + P ( g ) \mathcal{P}(f{\otimes}g){=}\mathcal{P}(f){+}\mathcal{P}(g) P(fg)=P(f)+P(g)相当于闵可夫斯基和
    热带和 f ⊕ g f{\oplus}g fg P ( f ⊕ g ) = Conv ( V ( P ( f ) ) ∪ V ( P ( g ) ) ) \mathcal{P}(f{\oplus}g){=}\text{Conv}(\mathcal{V}(\mathcal{P}(f)){\cup}\mathcal{V}(\mathcal{P}(g))) P(fg)=Conv(V(P(f))V(P(g)))相当于顶点联合的凸包

2️⃣逐层递归:一个几何结构变换的视角,从点 → {\to} 线段 → {\to} 带状多面体 → {\to} 复杂多面体

  1. 0 0 0层:拆解 x ( 0 ) = x ( 0 ) − 0 \textbf{x}^{(0)}{=}\textbf{x}^{(0)}{-}\textbf{0} x(0)=x(0)0
    结构视角解读
    F ( 0 ) F^{(0)} F(0) k k k代数 x k ( 0 ) x_k^{(0)} xk(0)
    G ( 0 ) G^{(0)} G(0) k k k代数 0 0 0
    P ( F ( 0 ) 第 k 维 ) {\mathcal{P}\left(F^{(0)}第k维\right)} P(F(0)k)几何 ( 0 , … , 1 , … , 0 ⏟ 1 在第 k 位 , 0 ) (\underbrace{0,{\ldots},1,{\ldots},0}_{1\text{在第}k\text{位}},0) (1在第k 0,,1,,0,0)
    P ( G ( 0 ) 第 k 维 ) {\mathcal{P}\left(G^{(0)}第k维\right)} P(G(0)k)几何 ( 0 , … , 0 , … , 0 ⏟ d 0 个 0 , 0 ) (\underbrace{0,{\ldots},0,{\ldots},0}_{d_0\text{个}0},0) (d00 0,,0,,0,0)
  2. 1 1 1层:代入递归,注 b k ( 1 ) / t k ( 1 ) b_k^{(1)}/t_k^{(1)} bk(1)/tk(1) b d 1 / t d 1 \mathbf{b}_{d_{1}}/\mathbf{t}_{d_{1}} bd1/td1 k k k维, a k j ( 1 ) ( + ) / a k j ( 1 ) ( − ) a_{kj}^{(1)(+)}/a_{kj}^{(1)(-)} akj(1)(+)/akj(1)() A d i + 1 × d i ( + ) / A d i + 1 × d i ( − ) \mathbf{A}_{d_{i+1}{\times}d_i}^{(+)}/\mathbf{A}_{d_{i+1}{\times}d_i}^{(-)} Adi+1×di(+)/Adi+1×di() k k k j j j
    结构视角解读
    F ( 1 ) F^{(1)} F(1) k k k代数 [ ( ⨂ j = 1 d 0 ( x j ( 0 ) ) ⊗ a k j ( 1 ) ( + ) ) ⊗ b k ( 1 ) ] ⊕ [ ( ⨂ j = 1 d 0 ( x j ( 0 ) ) ⊗ a k j ( 1 ) ( − ) ) ⊗ t k ( 1 ) ] \displaystyle\left[\left(\bigotimes_{j=1}^{d_0}\left(x_j^{(0)}\right)^{\otimes a_{kj}^{(1)(+)}}\right){\otimes}b_k^{(1)}\right] {\oplus}\left[\left(\bigotimes_{j=1}^{d_0}\left(x_j^{(0)}\right)^{\otimes a_{kj}^{(1)(-)}}\right){\otimes}t_k^{(1)}\right] [(j=1d0(xj(0))akj(1)(+))bk(1)][(j=1d0(xj(0))akj(1)())tk(1)]
    G ( 1 ) G^{(1)} G(1) k k k代数 ( ⨂ j = 1 d 0 ( x j ( 0 ) ) ⊗ a k j ( 1 ) ( − ) ) \left(\displaystyle\bigotimes_{j=1}^{d_0}\left(x_j^{(0)}\right)^{\otimes a_{kj}^{(1)(-)}}\right) (j=1d0(xj(0))akj(1)())
    P ( F ( 1 ) 第 k 维 ) {\mathcal{P}\left(F^{(1)}第k维\right)} P(F(1)k)几何线段 ( a k 1 ( 1 ) ( + ) , … , a k , d 0 ( 1 ) ( + ) , b k ( 1 ) ) ↔ 连线 ( a k 1 ( 1 ) ( − ) , … , a k , d 0 ( 1 ) ( − ) , t k ( 1 ) ) \left(a_{k 1}^{(1)(+)}, \ldots, a_{k, d_0}^{(1)(+)},b_k^{(1)}\right){\xleftrightarrow{连线}}\left(a_{k 1}^{(1)(-)}, \ldots, a_{k, d_0}^{(1)(-)},t_k^{(1)}\right) (ak1(1)(+),,ak,d0(1)(+),bk(1))连线 (ak1(1)(),,ak,d0(1)(),tk(1))
    P ( G ( 1 ) 第 k 维 ) {\mathcal{P}\left(G^{(1)}第k维\right)} P(G(1)k)几何单点 ( a k 1 ( 1 ) ( − ) , … , a k , d 0 ( 1 ) ( − ) , 0 ) \left(a_{k 1}^{(1)(-)},\ldots, a_{k, d_0}^{(1)(-)},0\right) (ak1(1)(),,ak,d0(1)(),0)
  3. 2 2 2层:再代入递归,向量 / / /矩阵的元素符号与上类似
    结构视角解读
    F ( 2 ) F^{(2)} F(2) k k k代数形式上为两个复杂多项式的 ⊕ {\oplus}
    G ( 2 ) G^{(2)} G(2) k k k代数形式上为两个复杂多项式的 ⊗ {\otimes}
    P ( F ( 2 ) 第 k 维 ) {\mathcal{P}\left(F^{(2)}第k维\right)} P(F(2)k)几何多项式的 ⊕ → {\oplus}{\to} 多个线段 / / /多面体的端点合并后求凸包 → {\to} 复杂多面体
    P ( G ( 2 ) 第 k 维 ) {\mathcal{P}\left(G^{(2)}第k维\right)} P(G(2)k)几何多项式的 ⊗ → {\otimes}{\to} 多个线段求闵可夫斯基和 → {\to} 带状多面体(简单多面体)
  4. n n n层:不断递归,已经是多面体了再递归 P ( F ( n ) 第 k 维 ) / P ( F ( n ) 第 k 维 ) {\mathcal{P}\left(F^{(n)}第k维\right)}/{\mathcal{P}\left(F^{(n)}第k维\right)} P(F(n)k)/P(F(n)k)只会生成更复杂多面体

2.3.3.   \textbf{2.3.3. } 2.3.3. 神经网络的几何复杂度

1️⃣基本思路

  1. 度量:神经网络可等价为热带多项式,而热带多项式的线性区域数目越多,神经网络就越强
  2. 目标:利用前面建立的热带几何框架,推导出这个线性区域数量的上限

2️⃣主定理 %符号体系做了"本土化"

  1. 内容:对深度为 n n n宽度为 d i , max ⁡ d_{i,\max} di,max的神经网络,输入维度为 d 0 d_0 d0时线性区域数量为 O ( ( d i , max ⁡ ) d 0 ( n − 1 ) ) \mathcal{O}\left((d_{i,\max})^{d_0(n{-}1)}\right) O((di,max)d0(n1))
  2. 证明:思路是转化为证明热带几何中多面体顶点数的上界,具体过程在笔记中略
  3. 洞见:增加深度(指数级增加),是比增加宽度(多项式级增长)更有效提升网络表达能力的手段
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值