变分(Calculus of variations)的概念及运算规则(二)


6. Euler-Lagrange equation

6.6 一般化

  • 具有更高导数的单变量单函数

泛函的平稳值:

I [ f ] = ∫ x 0 x 1 L ( x , f , f ′ , f ′ ′ , … , f ( k ) )   d x   ;    f ′ : = d f d x ,   f ′ ′ : = d 2 f d x 2 ,   f ( k ) : = d k f d x k I[f]=\int _{x_{0}}^{x_{1}}{\mathcal {L}}(x,f,f',f'',\dots ,f^{( k)})~\mathrm {d} x~;~~f':={\cfrac {\mathrm {d} f}{\mathrm {d} x}},~f'':={\cfrac { \mathrm {d} ^{2}f}{\mathrm {d} x^{2}}},~f^{(k)}:={\cfrac {\mathrm {d} ^{k}f} {\mathrm {d} x^{k}}} I[f]=x0x1L(x,f,f,f′′,,f(k)) dx ;  f:=dxdf, f′′:=dx2d2f, f(k):=dxkdkf

可以从欧拉-拉格朗日方程得到:

∂ L ∂ f − d d x ( ∂ L ∂ f ′ ) + d 2 d x 2 ( ∂ L ∂ f ′ ′ ) − ⋯ + ( − 1 ) k d k d x k ( ∂ L ∂ f ( k ) ) = 0 {\cfrac {\partial {\mathcal {L}}}{\partial f}}-{\cfrac {\mathrm {d} }{\mathrm {d} x}}\left({\cfrac { \partial {\mathcal {L}}}{\partial f'}}\right)+{\cfrac {\mathrm {d} ^{2}}{\mathrm {d} x^{2}}}\left ({\cfrac {\partial {\mathcal {L}}}{\partial f''}}\right)-\dots +(-1)^{k}{\cfrac {\mathrm {d} ^{k }}{\mathrm {d} x^{k}}}\left({\cfrac {\partial {\mathcal {L}}}{\partial f^{(k)}}}\right)=0 fLdxd(fL)+dx2d2(f′′L)+(1)kdxkdk(f(k)L)=0

在函数本身以及第一个 k − 1 k-1 k1 导数的固定边界条件下(即对于所有 f ( i ) , i ∈ { 0 , . . . , k − 1 } f^{(i)},i\in \{0,... ,k-1\} f(i),i{0,...,k1})。最高导数 f ( k ) f^{(k)} f(k) 的端点值保持灵活。

  • 具有单导数的单变量的多个函数

如果问题涉及找到单个独立变量 ( x ) (x) (x) 的多个函数 ( f 1 , f 2 , … , f m ) (f_{1},f_{2},\dots ,f_{m}) (f1,f2,,fm) ,其都在泛函的极值上:

I [ f 1 , f 2 , … , f m ] = ∫ x 0 x 1 L ( x , f 1 , f 2 , … , f m , f 1 ′ , f 2 ′ , … , f m ′ )   d x   ;    f i ′ : = d f i d x I[f_{1},f_{2},\dots ,f_{m}]=\int _{x_{0}}^{x_{1}}{\mathcal {L}}(x, f_{1},f_{2},\dots ,f_{m},f_{1}',f_{2}',\dots ,f_{m}')~\mathrm {d} x~;~~ f_{i}':={\cfrac {\mathrm {d} f_{i}}{\mathrm {d} x}} I[f1,f2,,fm]=x0x1L(x,f1,f2,,fm,f1,f2,,fm) dx ;  fi:=dxdfi

那么对应的欧拉-拉格朗日方程为:

∂ L ∂ f i − d d x ( ∂ L ∂ f i ′ ) = 0 ; i = 1 , 2 , . . . , m {\begin{aligned}{\frac {\partial {\mathcal {L}}}{\partial f_{i}}}-{\frac {\mathrm {d} }{\mathrm {d} x }}\left({\frac {\partial {\mathcal {L}}}{\partial f_{i}'}}\right)=0;\quad i=1,2,...,m\end {aligned}} fiLdxd(fiL)=0;i=1,2,...,m

  • 具有单导数的多变量的单函数

多维泛化来自考虑 n n n 个变量的函数。如果 Ω \Omega Ω 是某个曲面,那么:

I [ f ] = ∫ Ω L ( x 1 , … , x n , f , f 1 , … , f n )   d x   ⁣   ;    f j : = ∂ f ∂ x j I[f]=\int _{\Omega }{\mathcal {L}}(x_{1},\dots ,x_{n},f,f_{1},\dots ,f_{n} )\,\mathrm {d} \mathbf {x} \,\!~;~~f_{j}:={\cfrac {\partial f}{\partial x_{j}}} I[f]=ΩL(x1,,xn,f,f1,,fn)dx ;  fj:=xjf

仅当 f f f 满足偏微分方程时才被取极值:

∂ L ∂ f − ∑ j = 1 n ∂ ∂ x j ( ∂ L ∂ f j ) = 0 {\frac {\partial {\mathcal {L}}}{\partial f}}-\sum _{j=1}^{n}{\frac {\partial }{\partial x_{j} }}\left({\frac {\partial {\mathcal {L}}}{\partial f_{j}}}\right)=0 fLj=1nxj(fjL)=0

n = 2 n=2 n=2 且泛函 I {\mathcal {I}} I 是能量泛函时,这会导致肥皂膜最小表面问题(Minimal surface)。

  • 具有单导数的多变量的多个函数

如果要确定多个多变量的未知函数,使得

I [ f 1 , f 2 , … , f m ] = ∫ Ω L ( x 1 , … , x n , f 1 , … , f m , f 1 , 1 , … , f 1 , n , … , f m , 1 , … , f m , n )   d x   ⁣   ;    f i , j : = ∂ f i ∂ x j I[f_{1},f_{2},\dots ,f_{m}]=\int _{\Omega }{\mathcal {L}}(x_{1},\dots ,x_{n },f_{1},\dots ,f_{m},f_{1,1},\dots ,f_{1,n},\dots ,f_{m,1},\dots ,f_{m,n })\,\mathrm {d} \mathbf {x} \,\!~;~~f_{i,j}:={\cfrac {\partial f_{i}}{\partial x_{j}}} I[f1,f2,,fm]=ΩL(x1,,xn,f1,,fm,f1,1,,f1,n,,fm,1,,fm,n)dx ;  fi,j:=xjfi

那么欧拉-拉格朗日方程为:

∂ L ∂ f 1 − ∑ j = 1 n ∂ ∂ x j ( ∂ L ∂ f 1 , j ) = 0 1 ∂ L ∂ f 2 − ∑ j = 1 n ∂ ∂ x j ( ∂ L ∂ f 2 , j ) = 0 2 ⋮ ⋮ ⋮ ∂ L ∂ f m − ∑ j = 1 n ∂ ∂ x j ( ∂ L ∂ f m , j ) = 0 m . {\begin{aligned}{\frac {\partial {\mathcal {L}}}{\partial f_{1}}}-\sum _{j=1}^{n}{\frac {\partial }{\partial x_{j}}}\left({\frac {\partial {\mathcal {L}}}{\partial f_{1,j}}}\right)&=0_{1}\\{\frac {\partial {\mathcal {L}}}{\partial f_{2}}}-\sum _{j=1}^{n}{\frac {\partial }{\partial x_{j}}}\left({\frac {\partial {\mathcal {L}}}{\partial f_{2,j}}}\right)&=0_{2}\\\vdots \qquad \vdots \qquad &\quad \vdots \\{\frac {\partial {\mathcal {L}}}{\partial f_{m}}}-\sum _{j=1}^{n}{\frac {\partial }{\partial x_{j}}}\left({\frac {\partial {\mathcal {L}}}{\partial f_{m,j}}}\right)&=0_{m}.\end{aligned}} f1Lj=1nxj(f1,jL)f2Lj=1nxj(f2,jL)fmLj=1nxj(fm,jL)=01=02=0m.

  • 具有更高导数的两个变量的单函数

如果要确定一个未知函数 f f f,它取决于两个变量 x 1 x_{1} x1 x 2 x_{2} x2,并且如果函数取决于 f f f 的高阶导数,直到 n n n,使得

I [ f ] = ∫ Ω L ( x 1 , x 2 , f , f 1 , f 2 , f 11 , f 12 , f 22 , … , f 22 … 2 )   d x f i : = ∂ f ∂ x i    , f i j : = ∂ 2 f ∂ x i ∂ x j    ,      … {\begin{aligned}I[f]&=\int _{\Omega }{\mathcal {L}}(x_{1},x_{2},f,f_{1},f_{2},f_{11},f_{12},f_{22},\dots ,f_{22\dots 2})\,\mathrm {d} \mathbf {x} \\&\qquad \quad f_{i}:={\cfrac {\partial f}{\partial x_{i}}}\;,\quad f_{ij}:={\cfrac {\partial ^{2}f}{\partial x_{i}\partial x_{j}}}\;,\;\;\dots \end{aligned}} I[f]=ΩL(x1,x2,f,f1,f2,f11,f12,f22,,f222)dxfi:=xif,fij:=xixj2f,

那么欧拉-拉格朗日方程为:

∂ L ∂ f − ∂ ∂ x 1 ( ∂ L ∂ f 1 ) − ∂ ∂ x 2 ( ∂ L ∂ f 2 ) + ∂ 2 ∂ x 1 2 ( ∂ L ∂ f 11 ) + ∂ 2 ∂ x 1 ∂ x 2 ( ∂ L ∂ f 12 ) + ∂ 2 ∂ x 2 2 ( ∂ L ∂ f 22 ) − ⋯ + ( − 1 ) n ∂ n ∂ x 2 n ( ∂ L ∂ f 22 … 2 ) = 0 {\begin{aligned}{\frac {\partial {\mathcal {L}}}{\partial f}}&-{\frac {\partial }{\partial x_{1}}}\left( {\frac {\partial {\mathcal {L}}}{\partial f_{1}}}\right)-{\frac {\partial }{\partial x_{2}}}\left({\frac { \partial {\mathcal {L}}}{\partial f_{2}}}\right)+{\frac {\partial ^{2}}{\partial x_{1}^{2}}}\left( {\frac {\partial {\mathcal {L}}}{\partial f_{11}}}\right)+{\frac {\partial ^{2}}{\partial x_{1}\partial x_{2 }}}\left({\frac {\partial {\mathcal {L}}}{\partial f_{12}}}\right)+{\frac {\partial ^{2}}{\partial x_{2 }^{2}}}\left({\frac {\partial {\mathcal {L}}}{\partial f_{22}}}\right)\\&-\dots +(-1)^{n }{\frac {\partial ^{n}}{\partial x_{2}^{n}}}\left({\frac {\partial {\mathcal {L}}}{\partial f_{22\dots 2}}}\right)=0\end{aligned}} fLx1(f1L)x2(f2L)+x122(f11L)+x1x22(f12L)+x222(f22L)+(1)nx2nn(f222L)=0

这可以简单地表示为:

∂ L ∂ f + ∑ j = 1 n ∑ μ 1 ≤ … ≤ μ j ( − 1 ) j ∂ j ∂ x μ 1 … ∂ x μ j ( ∂ L ∂ f μ 1 … μ j ) = 0 {\frac {\partial {\mathcal {L}}}{\partial f}}+\sum _{j=1}^{n}\sum _{\mu _{1}\leq \ldots \leq \mu _{j}}(-1)^{j}{\frac {\partial ^{j}}{\partial x_{\mu _{1}}\dots \partial x_{\mu _{ j}}}}\left({\frac {\partial {\mathcal {L}}}{\partial f_{\mu _{1}\dots \mu _{j}}}}\right)=0 fL+j=1nμ1μj(1)jxμ1xμjj(fμ1μjL)=0

其中 μ 1 … μ j \mu _{1}\dots \mu _{j} μ1μj 是变量数量的索引,也就是说,它们从 1 1 1 2 2 2。这里对 μ 1 … μ j \mu _{1}\dots \mu _{j} μ1μj 索引的求和仅在 μ 1 ≤ μ 2 ≤ … ≤ μ j \mu _{ 1}\leq \mu _{2}\leq \ldots \leq \mu _{j} μ1μ2μj,这是为了避免多次计算相同的偏导数,例如 f 12 = f 21 f_{12}=f_{21} f12=f21 在前面的等式中只出现一次.

  • 具有更高导数的多变量的多个函数

如果有 p p p个取决于 m m m 个变量 x 1 , ⋯   , x m x_{1},\cdots,x_{m} x1,,xm 的未知函数 f i f_{i} fi 被确定,并且如果函数取决于 f i f_{i} fi 的高阶导数,直到第 n n n 阶,使得:

I [ f 1 , … , f p ] = ∫ Ω L ( x 1 , … , x m ; f 1 , … , f p ; f 1 , 1 , … , f p , m ; f 1 , 11 , … , f p , m m ; … ; f p , 1 … 1 , … , f p , m … m )   d x f i , μ : = ∂ f i ∂ x μ    , f i , μ 1 μ 2 : = ∂ 2 f i ∂ x μ 1 ∂ x μ 2    ,      … {\begin{aligned}I[f_{1},\ldots ,f_{p}]&=\int _{\Omega }{\mathcal {L}}(x_{1},\ldots ,x_ {m};f_{1},\ldots ,f_{p};f_{1,1},\ldots ,f_{p,m};f_{1,11},\ldots ,f_{p,mm} ;\ldots ;f_{p,1\ldots 1},\ldots ,f_{p,m\ldots m})\,\mathrm {d} \mathbf {x} \\&\qquad \quad f_{i, \mu }:={\cfrac {\partial f_{i}}{\partial x_{\mu }}}\;,\quad f_{i,\mu _{1}\mu _{2}}:= {\cfrac {\partial ^{2}f_{i}}{\partial x_{\mu _{1}}\partial x_{\mu _{2}}}}\;,\;\;\dots \end{aligned}} I[f1,,fp]=ΩL(x1,,xm;f1,,fp;f1,1,,fp,m;f1,11,,fp,mm;;fp,11,,fp,mm)dxfi,μ:=xμfi,fi,μ1μ2:=xμ1xμ22fi,

其中 μ 1 … μ j \mu _{1}\dots \mu _{j} μ1μj 是变量数量的索引,即它们从 1 1 1 m m m。那么欧拉-拉格朗日方程为:

∂ L ∂ f i + ∑ j = 1 n ∑ μ 1   l e q … ≤ μ j ( − 1 ) j ∂ j ∂ x μ 1 … ∂ x   m u j ( ∂ L ∂ f i , μ 1 … μ j ) = 0 {\frac {\partial {\mathcal {L}}}{\partial f_{i}}}+\sum _{j=1}^{n}\sum _{\mu _{1}\ leq \ldots \leq \mu _{j}}(-1)^{j}{\frac {\partial ^{j}}{\partial x_{\mu _{1}}\dots \partial x_{\ mu _{j}}}}\left({\frac {\partial {\mathcal {L}}}{\partial f_{i,\mu _{1}\dots \mu _{j}}}}\right)=0 fiL+j=1nμ1 leqμj(1)jxμ1x mujj(fi,μ1μjL)=0

其中 μ 1 … μ j \mu _{1}\dots \mu _{j} μ1μj 的求和避免计算相同的导数 f i , μ 1 μ 2 = f i , μ 2 μ 1 f_{i, \mu _{1}\mu _{2}}=f_{i,\mu _{2}\mu _{1}} fi,μ1μ2=fi,μ2μ1 多次,就像上一小节一样。这可以更紧凑地表示为:

∑ j = 0 n ∑ μ 1 ≤ … ≤ μ j ( − 1 ) j ∂ μ 1 … μ j j ( ∂ L ∂ f i , μ 1 … μ j ) = 0 \sum _{j=0}^{n}\sum _{\mu _{1}\leq \ldots \leq \mu _{j}}(-1)^{j}\partial _{\mu _{1}\ldots \mu _{j}}^{j}\left({\frac {\partial {\mathcal {L}}}{\partial f_{i,\mu _{1}\dots \mu _{j}}}}\right)=0 j=0nμ1μj(1)jμ1μjj(fi,μ1μjL)=0

6.7 泛化到流形

M M M 为光滑流形,令 C ∞ ( [ a , b ] ) C^{\infty }([a,b]) C([a,b]) 表示光滑函数空间 f : [ a , b ] → M f:[a,b]\to M f:[a,b]M。那么,对于泛函 S : C ∞ ( [ a , b ] ) → R S:C^{\infty }([a,b])\to \mathbb{R} S:C([a,b])R 的形式

S [ f ] = ∫ a b ( L ∘ f ˙ ) ( t ) S[f]=\int _{a}^{b}(L\circ {\dot {f}})(t) S[f]=ab(Lf˙)(t)

其中 L : T M → R L:TM\to \mathbb {R} L:TMR 是拉格朗日函数(Lagrangian),表述 d S f = 0 \mathrm {d} S_{f}=0 dSf=0 等价于这样的表述,对于所有 t ∈ [ a , b ] t\in [a,b] t[a,b] f ˙ ( t ) \dot {f}(t) f˙(t) 的邻域的每个坐标系平凡化(trivialization ( x i , X i ) (x^{i},X^{i}) (xi,Xi) , 产生以下 dim ⁡ M \dim M dimM 方程:

∀ i : d d t ∂ L ∂ X i ∣ f ˙ ( t ) = ∂ L ∂ x i ∣ f ˙ ( t ) \forall i:{\frac {\mathrm {d} }{\mathrm {d} t}}{\frac {\partial L}{\partial X^{i}}}{\bigg |}_ {{\dot {f}}(t)}={\frac {\partial L}{\partial x^{i}}}{\bigg |}_{{\dot {f}}(t)} i:dtdXiL f˙(t)=xiL f˙(t)

6.8 具体例子

为了说明这个过程,考虑寻找极值函数 y = f ( x ) y=f(x) y=f(x) 的问题,它是连接两点 ( x 1 , y 1 ) (x_{1},y_{1}) (x1,y1) ( x 2 , y 2 ) (x_{2},y_{2}) (x2,y2) 的最短曲线。曲线的弧长由下式给出:

A [ y ] = ∫ x 1 x 2 1 + [ y ′ ( x ) ] 2   d x A[y]=\int _{x_{1}}^{x_{2}}{\sqrt {1+[y'(x)]^{2}}}\,\mathrm{d}x A[y]=x1x21+[y(x)]2 dx

y ′ ( x ) = d y d x   ,    y 1 = f ( x 1 )   ,    y 2 = f ( x 2 ) y'(x)={\frac {\mathrm{d}y}{\mathrm{d}x}}\,,\ \ y_{1}=f(x_{1})\,,\ \ y_{2}=f(x_{ 2}) y(x)=dxdy,  y1=f(x1),  y2=f(x2)

请注意,假设 y y y x x x 的函数会失去一般性;理想情况下,两者都应该是其他一些参数的函数。这种方法仅用于说明目的。

现在将使用欧拉-拉格朗日方程来求极值函数 f ( x ) f(x) f(x),它使函数 A [ y ] A[y] A[y] 最小:

∂ L ∂ f − d d x ∂ L ∂ f ′ = 0 {\frac {\partial L}{\partial f}}-{\frac {\mathrm{d}}{\mathrm{d}x}}{\frac {\partial L}{\partial f'}}=0 fLdxdfL=0

L = 1 + [ f ′ ( x ) ] 2 L={\sqrt {1+[f'(x)]^{2}}} L=1+[f(x)]2

由于 f f f 没有显式出现在 L L L 中,所以欧拉-拉格朗日方程中的第一项对于所有 f ( x ) f(x) f(x) 都消失了,因此:

d d x ∂ L ∂ f ′ = 0 {\frac {\mathrm{d}}{\mathrm{d}x}}{\frac {\partial L}{\partial f'}}=0 dxdfL=0

代入 L L L 表达式并求导:

d d x   f ′ ( x ) 1 + [ f ′ ( x ) ] 2   = 0 {\frac {\mathrm{d}}{\mathrm{d}x}}\ {\frac {f'(x)}{\sqrt {1+[f'(x)]^{2}}}}\ =0 dxd 1+[f(x)]2 f(x) =0

因此

f ′ ( x ) 1 + [ f ′ ( x ) ] 2 = c {\frac {f'(x)}{\sqrt {1+[f'(x)]^{2}}}}=c 1+[f(x)]2 f(x)=c

c c c 为积分常数。然后将上式左右平方:

[ f ′ ( x ) ] 2 1 + [ f ′ ( x ) ] 2 = c 2 {\frac {[f'(x)]^{2}}{1+[f'(x)]^{2}}}=c^{2} 1+[f(x)]2[f(x)]2=c2

其中:

0 ≤ c 2 < 1 0\leq c^{2}<1 0c2<1

求解前式,我们得到:

[ f ′ ( x ) ] 2 = c 2 1 − c 2 [f'(x)]^{2}={\frac {c^{2}}{1-c^{2}}} [f(x)]2=1c2c2

这意味着

f ′ ( x ) = m f'(x)=m f(x)=m

是一个常数,因此连接两点的最短曲线 ( x 1 , y 1 ) (x_{1},y_{1}) (x1,y1) ( x 2 , y 2 ) (x_{2},y_{2}) (x2,y2) 是:

f ( x ) = m x + b with   m = y 2 − y 1 x 2 − x 1 and b = x 2 y 1 − x 1 y 2 x 2 − x 1 f(x)=mx+b\qquad {\text{with}}\ \ m={\frac {y_{2}-y_{1}}{x_{2}-x_{1}}} \quad {\text{and}}\quad b={\frac {x_{2}y_{1}-x_{1}y_{2}}{x_{2}-x_{1}}} f(x)=mx+bwith  m=x2x1y2y1andb=x2x1x2y1x1y2

因此我们找到了极值函数 f ( x ) f(x) f(x),它最小化了泛函 A [ y ] A[y] A[y] 使得 A [ f ] A[f] A[f] 是最小值。直线方程是 y = f ( x ) y=f(x) y=f(x)。换句话说,换句话说,两点之间的最短距离是一条直线。

7. Beltrami’s identity

以 Eugenio Beltrami 命名的 Beltrami 恒等式是变分法中欧拉-拉格朗日方程的一个特例。

Euler-Lagrange 方程用于使以下形式的作用泛函极值化:

I [ y ] = ∫ a b L [ x , y ( x ) , y ′ ( x ) ]   d x I[y]=\int _{a}^{b}L[x,y(x),y'(x)]\,dx I[y]=abL[x,y(x),y(x)]dx

其中 a a a b b b 是常数:

y ′ ( x ) = d y d x y'(x)={\frac {dy}{dx}} y(x)=dxdy

如果 ∂ L ∂ x = 0 {\frac {\partial L}{\partial x}}=0 xL=0,则欧拉-拉格朗日方程简化为 Beltrami identity:

L − f ′ ∂ L ∂ f ′ = C L-f'{\frac {\partial L}{\partial f'}}=C LffL=C

其中 C C C 是一个常数。左侧是 L L L 相对于 f ′ ( x ) f'(x) f(x)

这个结果背后的直觉是,如果变量 x x x 实际上是时间,那么语句 ∂ L ∂ x = 0 {\frac {\partial L}{\partial x}}=0 xL=0 意味着拉格朗日函数是时间无关的。根据 Noether’s theorem,有一个相关的守恒量。在这种情况下,这个量是哈密顿量,拉格朗日量的勒让德变换,它(通常)与系统的能量一致。这又对应(减去)Beltrami’s identity 中的常数。

  • 推导

根据链式法则, L L L 的导数为

d L d x = ∂ L ∂ x d x d x + ∂ L ∂ f d f d x + ∂ L ∂ f ′ d f ′ d x {\frac {\mathrm{d}L}{\mathrm{d}x}}={\frac {\partial L}{\partial x}}{\frac {\mathrm{d}x}{\mathrm{d}x}}+{\frac {\partial L}{\partial f}}{\frac {\mathrm{d}f}{\mathrm{d}x}}+{\frac {\partial L}{\partial f'}}{\frac {\mathrm{d}f'}{\mathrm{d}x}} dxdL=xLdxdx+fLdxdf+fLdxdf

因为 ∂ L ∂ x = 0 {\frac {\partial L}{\partial x}}=0 xL=0,上式可以简化为:

d L d x = ∂ L ∂ f f ′ + ∂ L ∂ f ′ f ′ ′ {\frac {\mathrm{d}L}{\mathrm{d}x}}={\frac {\partial L}{\partial f}}f'+{\frac {\partial L}{\partial f'}}f'' dxdL=fLf+fLf′′

然后通过将其与欧拉-拉格朗日方程结合:

∂ L ∂ f = d d x ∂ L ∂ f ′ {\frac {\partial L}{\partial f}}={\frac {\mathrm{d}}{\mathrm{d}x}}{\frac {\partial L}{\partial f'}} fL=dxdfL

我们得到以下表达式:

d L d x = f ′ d d x ∂ L ∂ f ′ + f ′ ′ ∂ L ∂ f ′ {\frac {\mathrm{d}L}{\mathrm{d}x}}=f'{\frac {\mathrm{d}}{\mathrm{d}x}}{\frac {\partial L}{\partial f'}}+f''{\frac {\partial L}{\partial f'}} dxdL=fdxdfL+f′′fL

根据乘积法则,右边等价于:

d L d x = d d x ( f ′ ∂ L ∂ f ′ ) {\frac {\mathrm{d}L}{\mathrm{d}x}}={\frac {\mathrm{d}}{\mathrm{d}x}}\left(f'{\frac {\partial L}{\partial f'}}\right) dxdL=dxd(ffL)

通过去掉微分,并将等式两边内容放在一边,我们得到了 Beltrami identity:

L − f ′ ∂ L ∂ f ′ = C L-f'{\frac {\partial L}{\partial f'}}=C LffL=C

  • brachistochrone problem(最速降线问题)的解决方案

应用 Beltrami identity 的一个例子是 brachistochrone 问题,它涉及找到使积分最小化的曲线 y = y ( x ) y=y(x) y=y(x)

I [ y ] = ∫ 0 a 1 + y ′   2 y d x I[y]=\int _{0}^{a}{\sqrt {{1+y'^{\,2}} \over y}}\mathrm{d}x I[y]=0ay1+y2 dx

被积函数:

L ( y , y ′ ) = 1 + y ′   2 y L(y,y')={\sqrt {{1+y'^{\,2}} \over y}} L(y,y)=y1+y2

明确地不依赖于积分变量 x x x,所以 Beltrami identity 适用:

L − y ′ ∂ L ∂ y ′ = C L-y'{\frac {\partial L}{\partial y'}}=C LyyL=C

代入 L L L 并化简:

y ( 1 + y ′ 2 ) = 1 / C 2    ( c o n s t . ) y(1+y'^{2})=1/C^{2} \ \ (\mathrm{const.}) y(1+y2)=1/C2  (const.)

可以用参数方程形式的结果来求解:

x = A ( ϕ − sin ⁡ ϕ ) y = A ( 1 − cos ⁡ ϕ ) x=A(\phi -\sin \phi )\\ y=A(1-\cos \phi ) x=A(ϕsinϕ)y=A(1cosϕ)

A A A 是上述常数的一半, 1 2 C 2 {\frac {1}{2C^{2}}} 2C21,并且 ϕ \phi ϕ 是一个变量。这些是摆线的参数方程。

8. Euler–Poisson equation

如果 S S S 取决于 y ( x ) y(x) y(x) 的高阶导数,即,如果

S = ∫ a b f ( x , y ( x ) , y ′ ( x ) , … , y ( n ) ( x ) ) d x S=\int _{a}^{b}f(x,y(x),y'(x),\dots ,y^{(n)}(x))\mathrm{d}x S=abf(x,y(x),y(x),,y(n)(x))dx

那么 y y y 必须满足欧拉-泊松方程:

∂ f ∂ y − d d x ( ∂ f ∂ y ′ ) + ⋯ + ( − 1 ) n d n d x n [ ∂ f ∂ y ( n ) ] = 0 {\frac {\partial f}{\partial y}}-{\frac {\mathrm{d}}{\mathrm{d}x}}\left({\frac {\partial f}{\partial y'}}\right)+ \dots +(-1)^{n}{\frac {\mathrm{d}^{n}}{\mathrm{d}x^{n}}}\left[{\frac {\partial f}{\partial y^{(n)} }}\right]=0 yfdxd(yf)++(1)ndxndn[y(n)f]=0

9. Du Bois-Reymond’s theorem

到目前为止的讨论假设极值函数具有两个连续导数,尽管积分 J J J 的存在只需要试探函数(trial functions)的一阶导数。第一变分在极值处消失的条件可视为欧拉-拉格朗日方程的弱形式(weak form)。Du Bois-Reymond 定理断言,这种弱形式蕴含着强形式(strong form)。如果 L L L 关于它的所有参数具有连续的一阶和二阶导数,并且如果

∂ 2 L ∂ f ′ 2 ≠ 0 {\frac {\partial ^{2}L}{\partial f'^{2}}}\neq 0 f22L=0

那么 f f f 有两个连续导数,并且满足欧拉-拉格朗日方程。

10. Lavrentiev phenomenon

希尔伯特是第一个为欧拉-拉格朗日方程提供良好条件的人,以给出一个平稳解。在凸区域和正三次可微拉格朗日内,解由可数的部分组成,这些部分要么沿着边界移动,要么满足内部的欧拉-拉格朗日方程。

然而,拉夫伦季耶夫在 1926 年表明,在某些情况下,没有最佳解决方案,但可以通过增加截面数量来任意接近解决方案。 Lavrentiev 现象确定了不同类别的可接受函数之间最小化问题的下确界的差异。例如以下问题,由 Manià 在 1934 年提出:[18]

{\displaystyle L[x]=\int _{0}{1}(x{3}-t){2}x’{6},}{\displaystyle L[x]=\int _ {0}{1}(x{3}-t){2}x’{6},}
{\displaystyle {A}={x\in W^{1,1}(0,1):x(0)=0,\ x(1)=1}.}{\displaystyle {A}= {x\in W^{1,1}(0,1):x(0)=0,\x(1)=1}.}
显然,{\displaystyle x(t)=t^{\frac {1}{3}}}{\displaystyle x(t)=t^{\frac {1}{3}}} 最小化了泛函,但我们找到任何函数 {\displaystyle x\in W^{1,\infty }}{\displaystyle x\in W^{1,\infty }} 给出一个远离下确界的值。

示例(一维)传统上表现为 {\displaystyle W{1,1}}W{{1,1}} 和 {\displaystyle W^{1,\infty },}{\displaystyle W^ {1,\infty },} 但 Ball 和 Mizel[19] 获得了第一个在 {\displaystyle W{1,p}}W{1,p} 和 {\displaystyle W^{1 ,q}}{\displaystyle W^{1,q}} 对于 {\displaystyle 1\leq p<q<\infty .}{\displaystyle 1\leq p<q<\infty .} 有几个结果给出不发生该现象的标准——例如“标准增长”、不依赖于第二个变量的拉格朗日函数或满足 Cesari 条件 (D) 的近似序列——但结果通常是特定的,适用于一小类泛函。

与拉夫连季耶夫现象相关的是排斥性:任何表现拉夫连季耶夫现象的泛函都会表现出弱排斥性。 [20]

11. Functions of several variables(多元函数)

例如,如果 {\displaystyle \varphi (x,y)}{\displaystyle \varphi (x,y)} 表示在 {\displaystyle x,y} x,y 平面,则其势能与其表面积成正比:

{\displaystyle U[\varphi ]=\iint _{D}{\sqrt {1+\nabla \varphi \cdot \nabla \varphi }},dx,dy.}{\displaystyle U[\varphi ]= \iint _{D}{\sqrt {1+\nabla \varphi \cdot \nabla \varphi }},dx,dy.}
Plateau 的问题包括找到一个函数,该函数在假设 {\displaystyle D}D 边界上的规定值的同时使表面积最小化;这些解称为最小曲面。这个问题的欧拉-拉格朗日方程是非线性的:
{\displaystyle \varphi _{xx}(1+\varphi _{y}^{2})+\varphi _{yy}(1+\varphi _{x}^{2})-2\varphi _{ x}\varphi _{y}\varphi _{xy}=0.}{\displaystyle \varphi _{xx}(1+\varphi _{y}^{2})+\varphi _{yy}(1 +\varphi _{x}^{2})-2\varphi _{x}\varphi _{y}\varphi _{xy}=0.}
有关详细信息,请参见 Courant (1950)。

狄利克雷原理
通常只考虑膜的小位移就足够了,其与无位移的能量差近似为

{\displaystyle V[\varphi ]={\frac {1}{2}}\iint _{D}\nabla \varphi \cdot \nabla \varphi ,dx,dy.}{\displaystyle V[\varphi ]={\frac {1}{2}}\iint {D}\nabla \varphi \cdot \nabla \varphi ,dx,dy.}
在所有假设 {\displaystyle D.}D 边界上的规定值的试验函数 {\displaystyle \varphi }\varphi 中,函数 {\displaystyle V}V 将被最小化。如果 {\displaystyle u}u 是最小化函数且 {\displaystyle v}v 是在 {\displaystyle D,}D 的边界上消失的任意平滑函数,那么 {\displaystyle V[u+\varepsilon v]}V[u+\varepsilon v] 必须消失:
{\displaystyle \left.{\frac {d}{d\varepsilon }}V[u+\varepsilon v]\right|
{\varepsilon =0}=\iint {D}\nabla u\cdot \nabla v ,dx,dy=0.}{\displaystyle \left.{\frac {d}{d\varepsilon }}V[u+\varepsilon v]\right|{\varepsilon =0}=\iint _{ D}\nabla u\cdot \nabla v,dx,dy=0.}
假设 u 有两个导数,我们可以应用散度定理得到
{\displaystyle \iint _{D}\nabla \cdot (v\nabla u),dx,dy=\iint _{D}\nabla u\cdot \nabla v+v\nabla \cdot \nabla u\ ,dx,dy=\int _{C}v{\frac {\partial u}{\partial n}},ds,}{\displaystyle \iint _{D}\nabla \cdot (v\nabla u ),dx,dy=\iint _{D}\nabla u\cdot \nabla v+v\nabla \cdot \nabla u,dx,dy=\int _{C}v{\frac {\部分 u}{\partial n}},ds,}
其中 {\displaystyle C}C 是 {\displaystyle D,}D 的边界,{\displaystyle s}s 是沿 {\displaystyle C}C 和 {\displaystyle \partial u/\partial n}{\displaystyle \ partial u/\partial n} 是 {\displaystyle u}u 在 {\displaystyle C.}{\displaystyle C.} 上的正态导数。因为 {\displaystyle v}v 在 {\displaystyle C}C 上消失,第一个变体消失,结果是
{\displaystyle \iint _{D}v\nabla \cdot \nabla u,dx,dy=0}{\displaystyle \iint _{D}v\nabla \cdot \nabla u,dx,dy= 0}
对于在 {\displaystyle D.}D 的边界上消失的所有平滑函数 v。一维积分情况的证明可以适用于这种情况,以表明
{\displaystyle \nabla \cdot \nabla u=0}{\displaystyle \nabla \cdot \nabla u=0}
在 {\displaystyle D.}D.
这种推理的困难在于假设最小化函数 u 必须有两个导数。黎曼认为,平滑最小化函数的存在是通过与物理问题的联系来保证的:膜确实假设具有最小势能的配置。黎曼将这个想法命名为狄利克雷原理,以纪念他的老师彼得·古斯塔夫·勒琼·狄利克雷。然而,Weierstrass 给出了一个没有解决方案的变分问题的例子:最小化

{\displaystyle W[\varphi ]=\int _{-1}^{1}(x\varphi ')^{2},dx}{\displaystyle W[\varphi ]=\int _{-1} ^{1}(x\varphi ')^{2},dx}
在所有满足 {\displaystyle \varphi (-1)=-1}\varphi (-1)=-1 和 {\displaystyle \varphi (1)=1.}\varphi 的函数中 {\displaystyle \varphi }\varphi (1)=1。 {\displaystyle W}W 可以通过选择在原点的一个小邻域中在 -1 和 1 之间进行转换的分段线性函数来任意小。然而,没有任何函数使得 {\displaystyle W=0.}{\displaystyle W=0.}[j] 最终证明了狄利克雷原理是有效的,但它需要对椭圆部分的正则性理论进行复杂的应用微分方程;见 Jost 和 Li-Jost (1998)。

推广到其他边值问题
膜的势能更一般的表达式是

{\displaystyle V[\varphi ]=\iint _{D}\left[{\frac {1}{2}}\nabla \varphi \cdot \nabla \varphi +f(x,y)\varphi \right] ,dx,dy,+\int _{C}\left[{\frac {1}{2}}\sigma (s)\varphi ^{2}+g(s)\varphi \right]\ ,ds.}{\displaystyle V[\varphi ]=\iint _{D}\left[{\frac {1}{2}}\nabla \varphi \cdot \nabla \varphi +f(x,y)\ varphi \right],dx,dy,+\int _{C}\left[{\frac {1}{2}}\sigma (s)\varphi ^{2}+g(s)\varphi \right],ds.}
这对应于 {\displaystyle D,}D 中的外力密度 {\displaystyle f(x,y)}f(x,y),边界上的外力 {\displaystyle g(s)}g(s) {\displaystyle C,}{\displaystyle C,} 和模量 {\displaystyle \sigma (s)}{\displaystyle \sigma (s)} 作用于 {\displaystyle C.}{\displaystyle C.}将势能最小化且对其边界值没有限制的函数将用 {\displaystyle u.}u 表示。假设 {\displaystyle f}f 和 {\displaystyle g}g 是连续的,正则性理论意味着最小化函数 {\displaystyle u}u 将有两个导数。在采用第一种变化时,不需要对增量 {\displaystyle v.}v 施加边界条件。 {\displaystyle V[u+\varepsilon v]}V[u+\varepsilon v] 的第一个变体由下式给出
{\displaystyle \iint _{D}\left[\nabla u\cdot \nabla v+fv\right],dx,dy+\int _{C}\left[\sigma uv+gv\right], ds=0.}{\displaystyle \iint _{D}\left[\nabla u\cdot \nabla v+fv\right],dx,dy+\int _{C}\left[\sigma uv+gv \right],ds=0.}
如果我们应用散度定理,结果是
{\displaystyle \iint _{D}\left[-v\nabla \cdot \nabla u+vf\right],dx,dy+\int _{C}v\left[{\frac {\partial u} {\partial n}}+\sigma u+g\right],ds=0.}{\displaystyle \iint _{D}\left[-v\nabla \cdot \nabla u+vf\right], dx,dy+\int _{C}v\left[{\frac {\partial u}{\partial n}}+\sigma u+g\right],ds=0.}
如果我们首先在 {\displaystyle C,}{\displaystyle C,} 上设置 {\displaystyle v=0}v=0,那么边界积分就消失了,我们像以前一样得出结论
{\displaystyle -\nabla \cdot \nabla u+f=0}{\displaystyle -\nabla \cdot \nabla u+f=0}
在 {\displaystyle D.}D.那么如果我们允许 {\displaystyle v}v 假设任意边界值,这意味着 {\displaystyle u}u 必须满足边界条件
{\displaystyle {\frac {\partial u}{\partial n}}+\sigma u+g=0,}{\displaystyle {\frac {\partial u}{\partial n}}+\sigma u+g =0,}
在 {\displaystyle C.}{\displaystyle C.} 这个边界条件是 {\displaystyle u}u 的最小化属性的结果:它不是事先强加的。这样的条件称为自然边界条件。
如果 {\displaystyle \sigma }\sigma 在 {\displaystyle C.}{\displaystyle C} 上同样消失,则上述推理无效。在这种情况下,我们可以允许试函数 {\displaystyle \varphi \equiv c }{\displaystyle \varphi \equiv c,} 其中 {\displaystyle c}c 是一个常数。对于这样的试用功能,

{\displaystyle V[c]=c\left[\iint _{D}f,dx,dy+\int _{C}g,ds\right].}{\displaystyle V[c]=c\左[\iint _{D}f,dx,dy+\int _{C}g,ds\right].}
By appropriate choice of {\displaystyle c,}c, {\displaystyle V}V can assume any value unless the quantity inside the brackets vanishes.因此,变分问题是没有意义的,除非
{\displaystyle \iint _{D}f,dx,dy+\int _{C}g,ds=0.}{\displaystyle \iint _{D}f,dx,dy+\int _{ C}g,ds=0.}
这种情况意味着系统上的净外力处于平衡状态。如果这些力处于平衡状态,则变分问题有解,但它不是唯一的,因为可以添加任意常数。更多细节和例子在 Courant 和 Hilbert (1953) 中。

12. 特征值问题

一维和多维特征值问题都可以表述为变分问题。

Sturm-Liouville 问题
参见:Sturm-Liouville 理论
Sturm-Liouville 特征值问题涉及一般二次形式

{\displaystyle Q[\varphi ]=\int {x{1}}^{x_{2}}\left[p(x)\varphi ‘(x)^{2}+q(x)\varphi ( x)^{2}\right],dx,}{\displaystyle Q[\varphi ]=\int {x{1}}^{x_{2}}\left[p(x)\varphi ‘( x)^{2}+q(x)\varphi (x)^{2}\right],dx,}
其中 {\displaystyle \varphi }\varphi 仅限于满足边界条件的函数
{\displaystyle \varphi (x_{1})=0,\quad \varphi (x_{2})=0.}{\displaystyle \varphi (x_{1})=0,\quad \varphi (x_{2 })=0.}
令 {\displaystyle R}R 为归一化积分
{\displaystyle R[\varphi ]=\int {x{1}}^{x_{2}}r(x)\varphi (x)^{2},dx.}{\displaystyle R[\varphi ]=\int {x{1}}^{x_{2}}r(x)\varphi (x)^{2},dx.}
函数 {\displaystyle p(x)}p(x) 和 {\displaystyle r(x)}r(x) 需要处处为正且远离零。主要的变分问题是最小化所有满足端点条件的 {\displaystyle \varphi }\varphi 的比率 {\displaystyle Q/R}{\displaystyle Q/R}。如下所示,最小化 {\displaystyle u}u 的欧拉-拉格朗日方程为
{\displaystyle -(pu’)’+qu-\lambda ru=0,}{\displaystyle -(pu’)'+qu-\lambda ru=0,}
其中 {\displaystyle \lambda }\lambda 是商
{\displaystyle \lambda ={\frac {Q[u]}{R[u]}}.}{\displaystyle \lambda ={\frac {Q[u]}{R[u]}}.}
可以证明(见 Gelfand 和 Fomin 1963)最小化 {\displaystyle u}u 有两个导数并且满足欧拉-拉格朗日方程。关联的 {\displaystyle \lambda }\lambda 将表示为 {\displaystyle \lambda {1}}\lambda {1};它是该方程和边界条件的最低特征值。相关的最小化函数将表示为 {\displaystyle u{1}(x).}{\displaystyle u{1}(x)。} 这种特征值的变分表征导致了瑞利-里兹方法:选择一个近似的 {\ displaystyle u}u 作为基函数(例如三角函数)的线性组合,并在这些线性组合中进行有限维最小化。这种方法通常出奇地准确。
下一个最小的特征值和特征函数可以通过在附加约束下最小化 {\displaystyle Q}Q

{\displaystyle \int {x{1}}^{x_{2}}r(x)u_{1}(x)\varphi (x),dx=0.}{\displaystyle \int {x {1}}^{x_{2}}r(x)u_{1}(x)\varphi (x),dx=0.}
可以扩展此过程以获得问题的特征值和特征函数的完整序列。
变分问题也适用于更一般的边界条件。除了要求 {\displaystyle \varphi }\varphi 在端点处消失,我们可以不在端点处施加任何条件,并设置

{\displaystyle Q[\varphi ]=\int {x{1}}^{x_{2}}\left[p(x)\varphi ‘(x)^{2}+q(x)\varphi ( x)^{2}\right],dx+a_{1}\varphi (x_{1})^{2}+a_{2}\varphi (x_{2})^{2},}{\显示样式 Q[\varphi ]=\int {x{1}}^{x_{2}}\left[p(x)\varphi ‘(x)^{2}+q(x)\varphi (x) ^{2}\right],dx+a_{1}\varphi (x_{1})^{2}+a_{2}\varphi (x_{2})^{2},}
其中 {\displaystyle a_{1}}a_{1} 和 {\displaystyle a_{2}}a_{2} 是任意的。如果我们设置 {\displaystyle \varphi =u+\varepsilon v}{\displaystyle \varphi =u+\varepsilon v},比率 {\displaystyle Q/R}{\displaystyle Q/R} 的第一个变化是
{\displaystyle V_{1}={\frac {2}{R[u]}}\left(\int {x{1}}^{x_{2}}\left[p(x)u’( x)v’(x)+q(x)u(x)v(x)-\lambda r(x)u(x)v(x)\right],dx+a_{1}u(x_{ 1})v(x_{1})+a_{2}u(x_{2})v(x_{2})\right),}{\displaystyle V_{1}={\frac {2}{R [u]}}\left(\int {x{1}}^{x_{2}}\left[p(x)u’(x)v’(x)+q(x)u(x) v(x)-\lambda r(x)u(x)v(x)\right],dx+a_{1}u(x_{1})v(x_{1})+a_{2}u (x_{2})v(x_{2})\right),}
其中 λ 由比值 {\displaystyle Q[u]/R[u]}{\displaystyle Q[u]/R[u]} 给出,如前所述。分部整合后,
{\displaystyle {\frac {R[u]}{2}}V_{1}=\int {x{1}}^{x_{2}}v(x)\left[-(pu’)’ +qu-\lambda ru\right],dx+v(x_{1})[-p(x_{1})u’(x_{1})+a_{1}u(x_{1})] +v(x_{2})[p(x_{2})u’(x_{2})+a_{2}u(x_{2})].}{\displaystyle {\frac {R[u] }{2}}V_{1}=\int {x{1}}^{x_{2}}v(x)\left[-(pu’)‘+qu-\lambda ru\right], dx+v(x_{1})[-p(x_{1})u’(x_{1})+a_{1}u(x_{1})]+v(x_{2})[p( x_{2})u’(x_{2})+a_{2}u(x_{2})].}
如果我们首先要求 {\displaystyle v}v 在端点处消失,第一个变体对于所有这样的 {\displaystyle v}v 将消失,仅当
{\displaystyle -(pu’)‘+qu-\lambda ru=0\quad {\hbox{for}}\quad x_{1}<x<x_{2}.}{\displaystyle -(pu’)’ +qu-\lambda ru=0\quad {\hbox{for}}\quad x_{1}<x<x_{2}.}
如果 {\displaystyle u}u 满足这个条件,那么对于任意 {\displaystyle v}v,第一个变化将消失,仅当
{\displaystyle -p(x_{1})u’(x_{1})+a_{1}u(x_{1})=0,\quad {\hbox{and}}\quad p(x_{2 })u’(x_{2})+a_{2}u(x_{2})=0.}{\displaystyle -p(x_{1})u’(x_{1})+a_{1} u(x_{1})=0,\quad {\hbox{and}}\quad p(x_{2})u’(x_{2})+a_{2}u(x_{2})=0 .}
后面的这些条件是这个问题的自然边界条件,因为它们不是为了最小化而强加于试验函数,而是最小化的结果。

多维特征值问题
高维特征值问题的定义与一维情况类似。例如,给定一个域 {\displaystyle D}D 在三个维度上具有边界 {\displaystyle B}B,我们可以定义

{\displaystyle Q[\varphi ]=\iiint _{D}p(X)\nabla \varphi \cdot \nabla \varphi +q(X)\varphi ^{2},dx,dy,dz+\ iint _{B}\sigma (S)\varphi ^{2},dS,}{\displaystyle Q[\varphi ]=\iiint _{D}p(X)\nabla \varphi \cdot \nabla \varphi +q(X)\varphi ^{2},dx,dy,dz+\iint _{B}\sigma (S)\varphi ^{2},dS,}

{\displaystyle R[\varphi ]=\iiint _{D}r(X)\varphi (X)^{2},dx,dy,dz.}{\displaystyle R[\varphi ]=\iiint _{D}r(X)\varphi (X)^{2},dx,dy,dz.}
令 {\displaystyle u}u 是使商 {\displaystyle Q[\varphi ]/R[\varphi ],}{\displaystyle Q[\varphi ]/R[\varphi ],} 最小化的函数,没有规定条件在边界 {\displaystyle B.}B. {\displaystyle u}u 满足的欧拉-拉格朗日方程为
{\displaystyle -\nabla \cdot (p(X)\nabla u)+q(x)u-\lambda r(x)u=0,}{\displaystyle -\nabla \cdot (p(X)\nabla u)+q(x)u-\lambda r(x)u=0,}
在哪里
{\displaystyle \lambda ={\frac {Q[u]}{R[u]}}.}{\displaystyle \lambda ={\frac {Q[u]}{R[u]}}.}
最小化 {\displaystyle u}u 也必须满足自然边界条件
{\displaystyle p(S){\frac {\partial u}{\partial n}}+\sigma (S)u=0,}{\displaystyle p(S){\frac {\partial u}{\partial n}}+\sigma (S)u=0,}
在边界 {\displaystyle B.}B.这个结果取决于椭圆偏微分方程的正则性理论;详见 Jost 和 Li-Jost (1998)。许多扩展,包括完备性结果、特征值的渐近性质和关于特征函数节点的结果都在 Courant 和 Hilbert (1953) 中。

13. 具体应用

光学
费马原理指出,光的路径(局部)最小化其端点之间的光学长度。如果选择 {\displaystyle x}x 坐标作为沿路径的参数,并且沿路径 {\displaystyle y=f(x)}y=f(x),则光学长度由下式给出

{\displaystyle A[f]=\int {x{0}}^{x_{1}}n(x,f(x)){\sqrt {1+f’(x)^{2}}} dx,}{\displaystyle A[f]=\int {x{0}}^{x_{1}}n(x,f(x)){\sqrt {1+f’(x)^{2 }}}dx,}
其中折射率 {\displaystyle n(x,y)}n(x,y) 取决于材料。如果我们尝试 {\displaystyle f(x)=f_{0}(x)+\varepsilon f_{1}(x)}{\displaystyle f(x)=f_{0}(x)+\varepsilon f_{1 }(x)} 那么 {\displaystyle A}A 的第一个变体({\displaystyle A}A 关于 ε 的导数)是
{\displaystyle \delta A[f_{0},f_{1}]=\int {x{0}}^{x_{1}}\left[{\frac {n(x,f_{0}) f_{0}‘(x)f_{1}’(x)}{\sqrt {1+f_{0}‘(x)^{2}}}}+n_{y}(x,f_{0} )f_{1}{\sqrt {1+f_{0}’(x)^{2}}}\right]dx.}{\displaystyle \delta A[f_{0},f_{1}]=\ int {x{0}}^{x_{1}}\left[{\frac {n(x,f_{0})f_{0}‘(x)f_{1}’(x)}{\ sqrt {1+f_{0}‘(x)^{2}}}}+n_{y}(x,f_{0})f_{1}{\sqrt {1+f_{0}’(x) ^{2}}}\right]dx.}
在括号内对第一项进行部分积分后,我们得到欧拉-拉格朗日方程

{\displaystyle -{\frac {d}{dx}}\left[{\frac {n(x,f_{0})f_{0}‘}{\sqrt {1+f_{0}’^{2 }}}}\right]+n_{y}(x,f_{0}){\sqrt {1+f_{0}‘(x)^{2}}}=0.}{\displaystyle -{\ frac {d}{dx}}\left[{\frac {n(x,f_{0})f_{0}’}{\sqrt {1+f_{0}‘^{2}}}}\right ]+n_{y}(x,f_{0}){\sqrt {1+f_{0}’(x)^{2}}}=0.}
光线可以通过积分这个方程来确定。这种形式主义在拉格朗日光学和哈密顿光学的背景下使用。

斯涅尔定律
当光进入或离开透镜时,折射率存在不连续性。让

{\displaystyle n(x,y)={\begin{cases}n_{(-)}&{\text{if}}\quad x<0,\n_{(+)}&{\text{if }}\quad x>0,\end{cases}}}{\displaystyle n(x,y)={\begin{cases}n_{(-)}&{\text{if}}\quad x<0 ,\n_{(+)}&{\text{if}}\quad x>0,\end{cases}}}
其中 {\displaystyle n_{(-)}}{\displaystyle n_{(-)}} 和 {\displaystyle n_{(+)}}{\displaystyle n_{(+)}} 是常数。那么欧拉-拉格朗日方程在 {\displaystyle x<0}x<0 或 {\displaystyle x>0,}{\displaystyle x>0,} 的区域和以前一样成立,实际上路径在那里是一条直线,因为折射率是恒定的。在 {\displaystyle x=0,}{\displaystyle x=0,} {\displaystyle f}f 必须是连续的,但 {\displaystyle f’}f’ 可能是不连续的。在单独区域中按部分积分并使用欧拉-拉格朗日方程后,第一个变化形式为
{\displaystyle \delta A[f_{0},f_{1}]=f_{1}(0)\left[n_{(-)}{\frac {f_{0}‘(0^{-}) }{\sqrt {1+f_{0}’(0{-}){2}}}}-n_{(+)}{\frac {f_{0}‘(0^{+})} {\sqrt {1+f_{0}’(0{+}){2}}}}\right].}{\displaystyle \delta A[f_{0},f_{1}]=f_{ 1}(0)\left[n_{(-)}{\frac {f_{0}‘(0^{-})}{\sqrt {1+f_{0}’(0{-}) {2}}}}-n_{(+)}{\frac {f_{0}‘(0^{+})}{\sqrt {1+f_{0}’(0{+}){ 2}}}}\右]。}
乘以 {\displaystyle n_{(-)}}{\displaystyle n_{(-)}} 的因子是入射光线与 {\displaystyle x}x 轴的角度的正弦值,乘以 {\displaystyle n_ {(+)}}{\displaystyle n_{(+)}} 是折射光线与 {\displaystyle x}x 轴的角度的正弦值。斯涅尔折射定律要求这些项相等。正如这个计算所表明的,斯涅尔定律等效于光程长度的第一次变化消失。

三个维度的费马原理
使用矢量表示法是方便的:让 {\displaystyle X=(x_{1},x_{2},x_{3}),}{\displaystyle X=(x_{1},x_{2},x_{ 3}),} 令 {\displaystyle t}t 为参数,令 {\displaystyle X(t)}X(t) 为曲线 {\displaystyle C,}{\displaystyle C,} {\displaystyle {\dot {X}}(t)}{\dot {X}}(t) 是它的切向量。曲线的光学长度由下式给出

{\displaystyle A[C]=\int {t{0}}^{t_{1}}n(X){\sqrt {{\dot {X}}\cdot {\dot {X}}}} ,dt.}{\displaystyle A[C]=\int {t{0}}^{t_{1}}n(X){\sqrt {{\dot {X}}\cdot {\dot { X}}}},dt.}
请注意,这个积分对于 {\displaystyle C.}{\displaystyle C.} 的参数表示的变化是不变的。最小化曲线的欧拉-拉格朗日方程具有对称形式

{\displaystyle {\frac {d}{dt}}P={\sqrt {{\dot {X}}\cdot {\dot {X}}}},\nabla n,}{\displaystyle {\frac {d}{dt}}P={\sqrt {{\dot {X}}\cdot {\dot {X}}}},\nabla n,}
在哪里
{\displaystyle P={\frac {n(X){\dot {X}}}{\sqrt {{\dot {X}}\cdot {\dot {X}}}}}.}{\displaystyle P ={\frac {n(X){\dot {X}}}{\sqrt {{\dot {X}}\cdot {\dot {X}}}}}。}
由定义可知 {\displaystyle P}P 满足

{\displaystyle P\cdot P=n(X)^{2}.}{\displaystyle P\cdot P=n(X)^{2}.}
因此,积分也可以写成

{\displaystyle A[C]=\int {t{0}}^{t_{1}}P\cdot {\dot {X}},dt.}{\displaystyle A[C]=\int _ {t_{0}}^{t_{1}}P\cdot {\dot {X}},dt.}
这种形式表明,如果我们可以找到一个函数 {\displaystyle \psi }\psi,其梯度由 {\displaystyle P,}P 给出,那么积分 {\displaystyle A}A 由 {\displaystyle \ psi }\psi 在积分区间的端点。因此,研究使积分平稳的曲线问题可以与研究 {\displaystyle \psi .}\psi 的水平面有关。为了找到这样的函数,我们求助于波动方程,它支配光的传播。这种形式主义在拉格朗日光学和哈密顿光学的背景下使用。

与波动方程的联系
非均匀介质的波动方程为

{\displaystyle u_{tt}=c^{2}\nabla \cdot \nabla u,}{\displaystyle u_{tt}=c^{2}\nabla \cdot \nabla u,}
其中 {\displaystyle c}c 是速度,通常取决于 {\displaystyle X.}X。光的波前是这个偏微分方程的特征表面:它们满足
{\displaystyle \varphi _{t}{2}=c(X){2},\nabla \varphi \cdot \nabla \varphi .}{\displaystyle \varphi _{t}^{2}= c(X)^{2},\nabla \varphi \cdot \nabla \varphi .}
我们可能会在表格中寻找解决方案

{\displaystyle \varphi (t,X)=t-\psi (X).}{\displaystyle \varphi (t,X)=t-\psi (X).}
在这种情况下,{\displaystyle \psi }\psi 满足

{\displaystyle \nabla \psi \cdot \nabla \psi =n^{2},}{\displaystyle \nabla \psi \cdot \nabla \psi =n^{2},}
其中 {\displaystyle n=1/c.}n=1/c。根据一阶偏微分方程理论,如果 {\displaystyle P=\nabla \psi ,}{\displaystyle P=\nabla \psi ,} 那么 {\displaystyle P}P 满足
{\displaystyle {\frac {dP}{ds}}=n,\nabla n,}{\displaystyle {\frac {dP}{ds}}=n,\nabla n,}
沿着由下式给出的曲线系统(光线)
{\displaystyle {\frac {dX}{ds}}=P.}{\displaystyle {\frac {dX}{ds}}=P.}
如果我们进行识别,这些用于求解一阶偏微分方程的方程与欧拉-拉格朗日方程相同

{\displaystyle {\frac {ds}{dt}}={\frac {\sqrt {{\dot {X}}\cdot {\dot {X}}}}{n}}.}{\displaystyle {\ frac {ds}{dt}}={\frac {\sqrt {{\dot {X}}\cdot {\dot {X}}}}{n}}。}
我们得出结论,函数 {\displaystyle \psi }\psi 是作为上端点函数的最小化积分 {\displaystyle A}A 的值。即,当构建最小化曲线族时,光程的值满足与波动方程对应的特征方程。因此,求解相关的一阶偏微分方程等效于找到变分问题的解族。这是汉密尔顿-雅可比理论的基本内容,适用于更一般的变分问题。

力学

在经典力学中,作用 {\displaystyle S,}S 被定义为拉格朗日函数 {\displaystyle L.}L 的时间积分。拉格朗日是能量的差异,

{\displaystyle L=T-U,}{\displaystyle L=T-U,}
其中 {\displaystyle T}T 是机械系统的动能,{\displaystyle U}U 是其势能。汉密尔顿原理(或作用原理)指出,保守的完整(可积约束)机械系统的运动使得作用积分
{\displaystyle S=\int {t{0}}^{t_{1}}L(x,{\dot {x}},t),dt}{\displaystyle S=\int {t{ 0}}^{t_{1}}L(x,{\dot {x}},t),dt}
对于路径 {\displaystyle x(t).}{\displaystyle x(t).} 的变化是静止的。该系统的欧拉-拉格朗日方程称为拉格朗日方程:
{\displaystyle {\frac {d}{dt}}{\frac {\partial L}{\partial {\dot {x}}}}={\frac {\partial L}{\partial x}},} {\displaystyle {\frac {d}{dt}}{\frac {\partial L}{\partial {\dot {x}}}}={\frac {\partial L}{\partial x}},}
它们等效于牛顿运动方程(对于此类系统)。
共轭动量 {\displaystyle P}P 定义为

{\displaystyle p={\frac {\partial L}{\partial {\dot {x}}}}.}{\displaystyle p={\frac {\partial L}{\partial {\dot {x}} }}。}
例如,如果
{\displaystyle T={\frac {1}{2}}m{\dot {x}}^{2},}{\displaystyle T={\frac {1}{2}}m{\dot {x }}^{2},}
然后
{\displaystyle p=m{\dot {x}}.}{\displaystyle p=m{\dot {x}}.}
如果通过拉格朗日 {\displaystyle L}L 到哈密顿量 {\displaystyle H 的勒让德变换引入共轭动量代替 {\displaystyle {\dot {x}}}{\dot {x}} }H 定义为
{\displaystyle H(x,p,t)=p,{\dot {x}}-L(x,{\dot {x}},t).}{\displaystyle H(x,p,t) =p,{\dot {x}}-L(x,{\dot {x}},t)。}
哈密​​顿量是系统的总能量: {\displaystyle H=T+U.}{\displaystyle H=T+U.} 与费马原理的类比表明,拉格朗日方程的解(粒子轨迹)可以用以下术语来描述{\displaystyle X.}X 的某个函数的水平面。该函数是 Hamilton-Jacobi 方程的解:
{\displaystyle {\frac {\partial \psi }{\partial t}}+H\left(x,{\frac {\partial \psi }{\partial x}},t\right)=0.}{ \displaystyle {\frac {\partial \psi }{\partial t}}+H\left(x,{\frac {\partial \psi }{\partial x}},t\right)=0.}

14. 极小值的变分和充分条件(Variations and sufficient condition for a minimum)

变分法关注泛函的变分,这是由于作为其参数的函数的微小变化而导致的泛函值的微小变化。一阶变分(first variation)被定义为泛函变化的线性部分,二阶变分(second variation)被定义为二次部分。

例如,如果 J [ y ] J[y] J[y] 是一个以函数 y = y ( x ) y=y(x) y=y(x) 作为参数的泛函,并且它的参数从 y y y y + h y+h y+h 有一个小的变化,其中 h = h ( x ) h=h(x) h=h(x) 是与 y y y 处于同一函数空间的函数,则泛函的对应变化为:

Δ J [ h ] = J [ y + h ] − J [ y ] \Delta J[h]=J[y+h]-J[y] ΔJ[h]=J[y+h]J[y]

泛函 J [ y ] J[y] J[y] 被认为是可微的,如果:

Δ J [ h ] = φ [ h ] + ε ∥ h ∥ \Delta J[h]=\varphi [h]+\varepsilon \|h\| ΔJ[h]=φ[h]+εh

其中 φ [ h ] \varphi [h] φ[h] 是线性泛函, ∥ h ∥ \|h\| h h h h 的范数, 当 ∥ h ∥ → 0 \|h\|\to 0 h0 ε → 0 \varepsilon \to 0 ε0。线性泛函 φ [ h ] \varphi [h] φ[h] J [ y ] J[y] J[y] 的一阶变分,并表示为:

δ J [ h ] = φ [ h ] \delta J[h]=\varphi [h] δJ[h]=φ[h]

泛函 J [ y ] J[y] J[y] 被称为是二次可微的,如果:

Δ J [ h ] = φ 1 [ h ] + φ 2 [ h ] + ε ∥ h ∥ 2 \Delta J[h]=\varphi _{1}[h]+\varphi _{2}[h]+\varepsilon \|h\|^{2} ΔJ[h]=φ1[h]+φ2[h]+εh2

其中 φ 1 [ h ] \varphi _{1}[h] φ1[h] 是线性泛函(一阶变分), φ 2 [ h ] \varphi _{2}[h] φ2[h] 是二次泛函,随着 ∥ h ∥ → 0 \|h\|\to 0 h0 ε → 0 \varepsilon \to 0 ε0 φ 2 [ h ] \varphi _{2}[h] φ2[h] J [ y ] J[y] J[y] 的二次泛函,并表示为:

δ 2 J [ h ] = φ 2 [ h ] \delta ^{2}J[h]=\varphi _{2}[h] δ2J[h]=φ2[h]

二阶变分 δ 2 J [ h ] \delta ^{2}J[h] δ2J[h] 被认为是恒正的(stongly positive),如果对于所有 h h h 和一些常数 k > 0 k>0 k>0

δ 2 J [ h ] ≥ k ∥ h ∥ 2 \delta ^{2}J[h]\geq k\|h\|^{2} δ2J[h]kh2

使用上面的定义,特别是一阶变分、二阶变分和恒正的定义,可以陈述以下最小泛函的充分条件。

极小值的充分条件

如果在 y = y ^ y={\hat {y}} y=y^,一阶变分 δ J [ h ] = 0 \delta J[h]=0 δJ[h]=0,在 y = y ^ y={\hat {y} } y=y^ ,二阶变分 δ 2 J [ h ] \delta ^{2}J[h] δ2J[h] 恒正,则泛函 J [ y ] J[y] J[y] y = y ^ y={\hat {y}} y=y^ 有一个极小值。

15. 变分法的基本引理(Fundamental lemma of calculus of variations)

在数学中,特别是在变分法中,函数 f f f 的变分 δ f \delta f δf 可以集中在任意小的区间上,但不能集中在单个点上。因此,极值的必要条件(函数导数为零)出现在与任意函数 δ f \delta f δf 集成的弱公式(weak formulation)(变分形式)中。变分法的基本引理(fundamental lemma of calculus of variations)通常用于将这个弱公式转换为强公式(微分方程),而无需与任意函数进行积分。证明通常利用这种可能性去选择 δ f \delta f δf δ f \delta f δf 集中在可以使 f f f 保持符号(正或负)的区间上。引理的有几个版本。最基本的版本易于表示和证明。

15.1 基本形式

如果开区间 ( a , b ) (a,b) (a,b) 上的连续函数 f f f 对于 ( a , b ) (a,b) (a,b) 上的所有紧致支持(compactly supported smooth functions)的平滑函数 h h h,满足等式:

∫ a b f ( x ) h ( x )   d x = 0 \int _{a}^{b}f(x)h(x)\,\mathrm {d} x=0 abf(x)h(x)dx=0

f f f 为零。

这里的“平滑”可以解释为“无限可微”,但通常被解释为“两次连续可微”或“连续可微”,甚至只是“连续”,因为这些较弱的陈述对于给定的任务已经足够了。 “紧支持(compactly supported)”是指“对于某些 c c c d d d 使得 a < c < d < b a<c<d<b a<c<d<b";但通常一个较弱的陈述就足够了,假设只有 h h h(或 h h h 及其许多衍生物)在端点 a a a b b b;在这种情况下使用闭区间 [ a , b ] [a,b] [a,b]

15.2 两个给定函数的形式

如果区间 ( a , b ) (a,b) (a,b) 上的一对连续函数 f f f g g g 对于 ( a , b ) (a,b) (a,b) 上的所有紧支持的平滑函数 h h h,满足等式:

∫ a b ( f ( x )   h ( x ) + g ( x )   h ′ ( x ) )   d x = 0 \int _{a}^{b}(f(x)\,h(x)+g(x)\,h'(x))\,\mathrm {d} x=0 ab(f(x)h(x)+g(x)h(x))dx=0

g g g 是可微的,并且处处 g ′ = f g' = f g=f

g = 0 g = 0 g=0 时的特殊情况只是基本形式。

另外当 f = 0 f = 0 f=0 时的特殊情况(通常足够):对于 (a,b) 上的所有平滑函数 h h h 满足 h ( a ) = h ( b ) = 0 h(a)=h(b)=0 h(a)=h(b)=0,如果区间 ( a , b ) (a,b) (a,b) 上的连续函数 g g g 满足等式:

∫ a b g ( x )   h ′ ( x )   d x = 0 \int _{a}^{b}g(x)\,h'(x)\,\mathrm {d} x=0 abg(x)h(x)dx=0

g g g 是常数。

此外,如果假设 g g g 连续可微,那么分部积分法将两个表述都简化为基本形式;这个例子由 Joseph-Louis Lagrange 给出,而 g g g 的可微性证明由 Paul du Bois-Reymond 给出。

15.3 不连续函数的形式

给定的函数 ( f , g ) (f,g) (f,g) 可以是不连续的,只要它们是局部可积的(在给定的区间上)。在这种情况下,Lebesgue 积分意味着,结论几乎无处不在(因此,在所有连续性点), g g g 的可微性被解释为局部绝对连续性(而不是连续可微性)。有时给定的函数被假定为分段连续的,在这种情况下,黎曼积分就足够了,除了有限的不连续点集外,所有地方都说明了结论。

15.4 高阶导数下的形式

如果一个连续函数元组 f 0 , f 1 , ⋯   , f n f_{0},f_{1},\cdots,f_{n} f0,f1,,fn 对于 ( a , b ) (a,b) (a,b) 上所有紧支持的平滑函数 h h h,在区间 ( a , b ) (a,b) (a,b) 上满足等式:

∫ a b ( f 0 ( x )   h ( x ) + f 1 ( x )   h ′ ( x ) + ⋯ + f n ( x )   h ( n ) ( x ) )   d x = 0 \int _{a}^{b}(f_{0}(x)\,h(x)+f_{1}(x)\,h'(x)+\dots +f_{n} (x)\,h^{(n)}(x))\,\mathrm {d} x=0 ab(f0(x)h(x)+f1(x)h(x)++fn(x)h(n)(x))dx=0

则存在连续可微函数 u 0 , u 1 , … , u n − 1 u_{0},u_{1},\dots ,u_{n-1} u0,u1,,un1,在 ( a , b ) (a,b) (a,b) 上使得:

f 0 = u 0 ′ , f 1 = u 0 + u 1 ′ , f 2 = u 1 + u 2 ′ ⋮ f n − 1 = u n − 2 + u n − 1 ′ , f n = u n − 1 {\begin{aligned}f_{0}&=u'_{0},\\f_{1}&=u_{0}+u'_{1},\\f_{2}&= u_{1}+u'_{2}\\\vdots \\f_{n-1}&=u_{n-2}+u'_{n-1},\\f_{n}&=u_ {n-1}\end{aligned}} f0f1f2fn1fn=u0,=u0+u1,=u1+u2=un2+un1,=un1

这个必要条件也是充分的,因为被积函数变为:

( u 0 h ) ′ + ( u 1 h ′ ) ′ + ⋯ + ( u n − 1 h ( n − 1 ) ) ′ (u_{0}h)'+(u_{1}h')'+\dots +(u_{n-1}h^{(n-1 )})' (u0h)+(u1h)++(un1h(n1))

n = 1 n=1 n=1 的情况只是两个给定函数的版本,因为 f = f 0 = u 0 ′ f=f_{0}=u'_{0} f=f0=u0 f 1 = u 0 f_ {1}=u_{0} f1=u0,因此, f 0 − f 1 ′ = 0 f_{0}-f'_{1}=0 f0f1=0

相反, n = 2 n=2 n=2 的情况不会导致关系 f 0 − f 1 ′ + f 2 ′ ′ = 0 f_{0}-f'_{1}+f''_{2}=0 f0f1+f2′′=0,因为函数 f 2 = u 1 f_{2}=u_{1} f2=u1 不需要可微分两次。充分条件 f 0 − f 1 ′ + f 2 ′ ′ = 0 f_{0}-f'_{1}+f''_{2}=0 f0f1+f2′′=0 是不必要的。相反,对于 n = 2 n=2 n=2 充分必要条件可以写成 f 0 − ( f 1 − f 2 ′ ) ′ = 0 f_{0}-(f_{1}-f'_{2})'=0 f0(f1f2)=0,对于 n = 3 n=3 n=3 f 0 − ( f 1 − ( f 2 − f 3 ′ ) ′ ) ′ = 0 f_{0}-(f_{1}-(f_{2}-f'_{3})')'=0 f0(f1(f2f3))=0,以此类推;通常,由于不可微分,括号不能打开。

15.5 向量值函数(Vector-valued functions)

推广到向量值函数 ( a , b ) → R d (a,b)\to \mathbb {R} ^{d} (a,b)Rd 很简单;将标量函数的结果分别应用于每个坐标,或从头开始处理向量值情况。

15.6 多变量函数(Multivariable functions)

如果开集 Ω ⊂ R d \Omega \subset \mathbb {R} ^{d} ΩRd 上的连续多变量函数 f f f 对于 Ω \Omega Ω 上的所有紧支持的平滑函数 h h h,满足等式:

∫ Ω f ( x )   h ( x )   d x = 0 \int _{\Omega }f(x)\,h(x)\,\mathrm {d} x=0 Ωf(x)h(x)dx=0

f f f 完全为零。

与基本形式类似,可以考虑 Ω \Omega Ω 闭包上的连续函数 f f f,假设 h h h Ω \Omega Ω 的边界上消失(而不是紧支持)。

下面是不连续多变量函数的形式。

Ω ⊂ R d \Omega \subset \mathbb {R} ^{d} ΩRd 为开集,且 f ∈ L 2 ( Ω ) f\in L^{2} (\Omega ) fL2(Ω) ,对于 Ω \Omega Ω 上的所有紧支持的平滑函数 h h h,满足等式:

∫ Ω f ( x )   h ( x )   d x = 0 \int _{\Omega }f(x)\,h(x)\,\mathrm {d} x=0 Ωf(x)h(x)dx=0

然后 f = 0 f=0 f=0(在 L 2 L^{2} L2 中,即几乎所有地方(almost everywhere))。

15.7 紧致支持(Compact support)

  • 紧致空间(Compact space)

在数学中,特别是一般拓扑学中,紧致性(compactness)是一种属性,旨在通过精确定义没有“洞”或“缺失端点”的空间的概念来概括欧几里得空间的封闭和有界子集的概念,即该空间不排除点的任何“极限值(limiting values)”。例如,“未闭合”区间 ( 0 , 1 ) (0,1) (0,1) 不会是紧致的,因为它排除了 0 0 0 1 1 1 的“极限值”,而闭合区间 [ 0 , 1 ] [0,1] [0,1] 将是紧致的。类似地,有理数(rational numbers)空间 Q \mathbb {Q} Q 不是紧致的,因为它有无数个对应于无理数的“洞”,而实数空间 R \mathbb { R} R 也不是紧致的,因为它排除了极限值 ∞ \infty − ∞ -\infty 。然而,扩展实数线(extended real number line)将是紧致的,因为它包含两个无穷大。有很多方法可以使这个启发式概念变得精确。这些方式在欧几里得空间中通常是一致的,但在其他拓扑空间中可能不等价。

图 根据 Heine-Borel 定理中所述的欧几里得空间的紧致性标准,区间 A = (-∞, -2] 不是紧致的,因为它是无界的。区间 C = (2, 4) 不是紧致的,因为它不是封闭的。区间 B = [0, 1] 是紧的,因为它既是封闭的又是有界的。


一个这样的概括是,如果从空间中采样的每个无穷点序列都有一个无穷子序列收敛到空间的某个点,则拓扑空间是顺序紧凑的(sequentially compact )。(Bolzano-Weierstrass 定理)指出,欧几里得空间的一个子集在这种顺序意义上是紧致的当且仅当它是封闭的和有界的。因此,如果在闭单位区间 [ 0 , 1 ] [0,1] [0,1] 中选择无限数量的点,则其中一些点将任意接近该空间中的某个实数。例如,序列 1 / 2 , 4 / 5 , 1 / 3 , 5 / 6 , 1 / 4 , 6 / 7 , ⋯ 1/2, 4/5, 1/3, 5/6, 1/4, 6/7, \cdots 1/2,4/5,1/3,5/6,1/4,6/7, 中的一些数字累积为 0 0 0(而其他数字累积为 1 1 1)。同一组点不会累加到开单位区间 (0, 1) 的任何一点上,因此开单位区间不是紧致的。尽管欧几里得空间的子集(子空间)可以是紧致的,但整个空间本身并不紧致,因为它是无界的。例如,考虑 R 1 \mathbb {R} ^{1} R1,即整个实数线,点的序列 0 ,   1 ,   2 ,   3 ,   ⋯ 0, 1, 2, 3, \cdots 0, 1, 2, 3, , 没有收敛到任何实数的子序列。

紧致性由 Maurice Fréchet 于 1906 年正式引入,以将 Bolzano-Weierstrass 定理从几何点空间推广到函数空间。 Arzelà-Ascoli 定理和 Peano 存在定理举例说明了这种紧致性概念在经典分析中的应用。在最初的介绍之后,在一般度量空间中开发了各种等价的紧致性概念,包括顺序紧致性和极限点紧致性。然而,在一般拓扑空间中,这些紧致性概念不一定是等价的。非限定项(unqualified term)紧致性的最有用的概念和标准定义是这样表述的:“覆盖”空间的开集有限族(finite families of open sets)的存在,即空间的每个点都位于该开集所包含的某个集合中。这个更微妙的概念由 Pavel Alexandrov 和 Pavel Urysohn 在 1929 年提出,将紧空间展示为有限集的推广(generalizations of finite sets)。在这种意义上的紧致空间中,通常可以将局部存在的信息(即每个点的邻域)拼凑成在整个空间中存在的相应陈述,许多定理都具有这种性质。

在这种意义上紧凑的空间中,通常有可能将局部的信息,即在每个点的邻域内的信息,拼凑成对应的陈述(statements),这些陈述贯穿整个空间,许多定理都具有这种性质。

术语“紧致集(compact set)”有时用作紧致空间的同义词,但通常也指拓扑空间的紧致子空间(compact subspace)。

  • 支持(Support)

在数学中,实值函数 f f f 的支持(support)是包含未映射到零的元素的域的子集。 如果 f f f 的域是拓扑空间,则 f f f 的支持被定义为包含所有未映射到零的点的最小闭集。这个概念在数学分析中被广泛使用。

假设 f : X → R f:X\to \mathbb {R} f:XR 是一个实值函数,其定义域是任意集合 X X X f f f 的集合论支持(set-theoretic support),表示为 supp ⁡ ( f ) \operatorname {supp} (f) supp(f),其是 X X X 中点的几何,其中对应的 f f f 不为零:

supp ⁡ ( f ) = { x ∈ X   :   f ( x ) ≠ 0 } \operatorname {supp} (f)=\{x\in X\,:\,f(x)\neq 0\} supp(f)={xX:f(x)=0}

f f f 的支持是 X X X 的最小子集,其性质是 f f f 在子集的补集上为零。如果对于所有有限的点 x ∈ X x\in X xX f ( x ) = 0 f(x)=0 f(x)=0,那么就说 f f f 有有限的支持(finite support)。

如果集合 X X X 有一个额外的结构(例如,一个拓扑),那么 f f f 的支持被定义为类似于一个适当类型的 X X X 的最小子集,使得 f f f 在其补集上以适当的意义消失。支持的概念也以一种自然的方式扩展到比 R \mathbb {R} R 更一般的集合中的取值函数和其他对象,例如测度(measures)或分布(distributions)。

  • 闭支持(Closed support)

最常见的情况发生在 X X X 是拓扑空间(例如实线或 n n n 维欧几里得空间)且 f : X → R f:X\to \mathbb {R} f:XR 是一个连续实(或复)值函数。在这种情况下, f f f 的支持(support)在拓扑上被定义为 X X X 的子集的闭包(closure,在拓扑学中,拓扑空间中点的子集 S S S 的闭包由 S S S 中的所有点以及S的所有极限点组成。 S S S 的闭包可以等价地定义为 S S S 及其边界的并集,也可以定义为包含 S S S 的所有闭集的交集。直观地说,闭包可以被认为是在 S S S 中或“附近” S S S 中的所有点. 在S的闭包中的点是 S S S 的闭包点。)(取于 X X X),其中 f f f 不为零,即:

supp ⁡ ( f ) : = cl ⁡ X ( { x ∈ X   :   f ( x ) ≠ 0 } ) = f − 1 ( { 0 } c ) ‾ \operatorname {supp} (f):=\operatorname {cl} _{X}\left(\{x\in X\,:\,f(x)\neq 0\}\right)={ \overline {f^{-1}\left(\{0\}^{c}\right)}} supp(f):=clX({xX:f(x)=0})=f1({0}c)

由于闭集的交集是闭集, supp ⁡ ( f ) \operatorname {supp} (f) supp(f) 是所有包含 f f f 集合论支持(set-theoretic)的封闭集的交集。

例如,如果函数 f : R → R f:\mathbb {R} \to \mathbb {R} f:RR 被定义为:

f ( x ) = { 1 − x 2 if  ∣ x ∣ < 1 0 if  ∣ x ∣ ≥ 1 f(x)={\begin{cases}1-x^{2}&{\text{if }}|x|<1\\0&{\text{if }}|x|\geq 1 \end{cases}} f(x)={1x20if x<1if x1

那么 f f f 的支持是闭区间 [ − 1 , 1 ] [-1,1] [1,1],因为 f f f 在开区间 ( − 1 , 1 ) (-1,1) (1,1) 非零,而这个集合的闭包是 [ − 1 , 1 ] [-1,1] [1,1]

闭支持的概念通常应用于连续函数,但该定义对拓扑空间上的任意实数或复值函数有意义,并且一些作者不要求 f : X → R f:X\to \mathbb {R} f:XR f : X → C f:X\to \mathbb {C} f:XC 是连续的。

  • 紧支持(Compact support)

在拓扑空间 X X X 上具有紧支持的函数是那些闭支持是 X X X 的紧致子集的函数。如果 X X X 是实线,或者 n n n 维欧几里得空间,那么一个函数具有紧支持当且仅当它具有有界支持(bounded support),因为 R n \mathbb {R} ^{n} Rn 的子集是紧的当且仅当它是闭和有界的。

例如,上面定义的函数 f : R → R f:\mathbb {R} \to \mathbb {R} f:RR 是一个紧致支持 [ − 1 , 1 ] [-1,1] [1,1] 的连续函数。如果 f : R n → R f:\mathbb {R} ^{n}\to \mathbb {R} f:RnR 是一个平滑函数,因为 f f f 在开子集 R n ∖ supp ⁡ ( f ) \mathbb {R} ^{n}\smallsetminus \operatorname {supp} (f) Rnsupp(f) 0 0 0 相同, f f f 的所有阶的偏导数在 R n ∖ supp ⁡ ( f ) \mathbb {R} ^{n}\smallsetminus \operatorname {supp} (f) Rnsupp(f) 上也是与 0 0 0 完全相同的。

紧支持的条件比在无穷远处消失的条件强。例如,函数 f : R → R f:\mathbb {R} \to \mathbb {R} f:RR 定义为

f ( x ) = 1 1 + x 2 f(x)={\frac {1}{1+x^{2}}} f(x)=1+x21

在无穷远处消失,因为随着 ∣ x ∣ → ∞ |x|\rightarrow \infty x f ( x ) → 0 f(x)\to 0 f(x)0,但它的支持 R \mathbb {R} R 不是紧致的。

欧几里得空间上的实值紧支持(Real-valued compactly supported)平滑函数称为凹凸函数。Mollifiers 是凹凸函数(bump functions)的一个重要特例,因为它们可用于分布理论,通过卷积创建近似非平滑(广义)函数的平滑函数序列。

在好的情况下,具有紧支持的函数在无穷远处消失的函数空间中是密集的(dense),但是这个属性需要一些技术工作来证明给定示例的合理性。作为对更复杂示例的直觉,在极限语言中,对于任何 ε > 0 \varepsilon >0 ε>0,任何函数 f f f 在实线上 R \mathbb {R } R,可以通过选择 R \mathbb {R} R 的适当紧子集 C C C 来近似,使得

∣ f ( x ) − I C ( x ) f ( x ) ∣ < ε \left|f(x)-I_{C}(x)f(x)\right|<\varepsilon f(x)IC(x)f(x)<ε

对于所有 x ∈ X x\in X xX,其中 I C I_{C} IC C C C 的指示函数(Indicator function)。紧致拓扑空间上的每个连续函数都有紧支持,因为紧致空间的每个闭子集确实是紧致的。

16. 更多应用

  • 悬链线形状的推导
  • 牛顿最小阻力问题的解法
  • brachistochrone 问题的解决方案
  • tautochrone 问题的解决方案
  • 等距问题的解决方案
  • 计算测地线
  • 寻找最小曲面并解决高原问题
  • 最佳控制
  • 分析力学,或牛顿运动定律的重新表述,最著名的是拉格朗日和哈密顿力学;
  • 几何光学,尤其是拉格朗日和哈密顿光学;
  • 变分法(量子力学),一种寻找最低能量本征态或基态以及一些激发态的近似值的方法;
  • 变分贝叶斯方法,一组用于逼近贝叶斯推理和机器学习中出现的棘手积分的技术;
  • 广义相对论中的变分方法,使用变分法解决爱因斯坦广义相对论中问题的一系列技术;
  • 有限元法是求微分方程中边值问题数值解的变分方法;
  • 总变差去噪,一种用于过滤高方差或噪声信号的图像处理方法。

几乎所有的物理和力学的基本规律都陈述为规定某一泛函的变分应该是 0 的“变分法原理”,由于这个原故变分法使许多重要的物理问题及技术问题得以解决。

17. 泛函分析(Functional analysis)简介

wiki: Functional analysis


  • 参考资料:

【数学百科】变分是什么?它和微分有什么区别?

wiki: Calculus of variations

wiki: Euler–Lagrange equation

wiki: Fundamental lemma of calculus of variations

wiki:Compact space

wiki: Mollifier

wiki: Bump function

wiki: Characteristic function

wiki: Indicator function

Beltrami identity

  • 5
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值