#机器学习--高等数学基础--第二章:导数与微分

本文深入介绍了机器学习所需的高等数学基础,重点讲解了导数与微分的概念。从导数的定义,包括左导数和右导数,到基本初等函数的导数公式,再到求导法则,如链式法则和反函数求导。此外,还阐述了高阶导数和函数的微分,为理解机器学习中的优化算法提供了坚实的数学基础。
摘要由CSDN通过智能技术生成

引言

        本系列博客旨在为机器学习(深度学习)提供数学理论基础。因此内容更为精简,适合二次学习的读者快速学习或查阅。


1、导数的概念

        定义1:设函数 y = f ( x ) y=f(x) y=f(x) 在点 x 0 x_{0} x0 的某个邻域内有定义,当自变量 x x x x 0 x_{0} x0 处取得增量 Δ x \Delta x Δx (点 x 0 + Δ x x_{0}+\Delta x x0+Δx 仍在该邻域内)时,相应地,因变量取得增量 Δ y = f ( x 0 + Δ x ) − f ( x 0 ) \Delta y=f(x_{0}+\Delta x)-f(x_{0}) Δy=f(x0+Δx)f(x0) ;如果 Δ y \Delta y Δy Δ x \Delta x Δx 之比当 Δ x → 0 \Delta x\to0 Δx0 时的极限存在,那么称函数 y = f ( x ) y=f(x) y=f(x) 在点 x 0 x_{0} x0可导,并称这个极限为函数 y = f ( x ) y=f(x) y=f(x) 在点 x 0 x_{0} x0 处的导数,记为 f ′ ( x 0 ) f'(x_{0}) f(x0) ,即 f ′ ( x 0 ) = lim ⁡ Δ x → 0 Δ y Δ x = lim ⁡ Δ x → 0 f ( x 0 + Δ x ) − f ( x 0 ) Δ x f'(x_{0})=\lim_{\Delta x\to0}\frac{\Delta y}{\Delta x}=\lim_{\Delta x\to0}\frac{f(x_{0}+\Delta x)-f(x_{0})}{\Delta x} f(x0)=limΔx0ΔxΔy=limΔx0Δxf(x0+Δx)f(x0) ,也可记作 y ′ ∣ x = x 0 y'|_{x=x_{0}} yx=x0 d y d x ∣ x = x 0 \frac{dy}{dx}|_{x=x_{0}} dxdyx=x0 d f ( x ) d x ∣ x = x 0 \frac{df(x)}{dx}|_{x=x_{0}} dxdf(x)x=x0

        定义2:根据定义1可知函数 f ( x ) f(x) f(x) 在点 x 0 x_{0} x0 处的导数 f ′ ( x 0 ) f'(x_{0}) f(x0) 是一个极限,而极限存在的充分必要条件是左、右极限都存在且相等,因此 f ′ ( x 0 ) f'(x_{0}) f(x0) 存在即 f ( x ) f(x) f(x) 在点 x 0 x_{0} x0 处可导的充分必要条件是左、右极限 lim ⁡ h → 0 − f ( x 0 + h ) − f ( x 0 ) h \lim_{h\to0^{-}}\frac{f(x_{0}+h)-f(x_{0})}{h} limh0hf(x0+h)f(x0) lim ⁡ h → 0 + f ( x 0 + h ) − f ( x 0 ) h \lim_{h\to0^{+}}\frac{f(x_{0}+h)-f(x_{0})}{h} limh0+hf(x0+h)f(x0) 都存在且相等,这两个极限分别称为函数 f ( x ) f(x) f(x) 在点 x 0 x_{0} x0 处的左导数右导数,记作 f − ′ ( x 0 ) f'_{-}(x_{0}) f(x0) f + ′ x 0 f'_{+}{x_{0}} f+x0 ,左导数和右导数统称为单侧导数

        定义3:如果函数 y = f ( x ) y=f(x) y=f(x) 在开区间 I I I 内处处可导,此时对于任一 x ∈ I x\in I xI ,都对应着 f ( x ) f(x) f(x) 的一个确定的导数值,这样就构成了一个新的函数,这个函数叫做原来函数 y = f ( x ) y=f(x) y=f(x)导函数,记作 y ′ y' y f ′ ( x ) f'(x) f(x) d y d x \frac{dy}{dx} dxdy ,或 d f ( x ) d x \frac{df(x)}{dx} dxdf(x)

        性质:
        1)函数 f ( x ) f(x) f(x) 在点 x 0 x_{0} x0 处可导的充分必要条件是左导数 f − ′ ( x 0 ) f'_{-}(x_{0}) f(x0) 和右导数 f + ′ x 0 f'_{+}{x_{0}} f+x0 都存在且相等。
        2)如果函数 y = f ( x ) y=f(x) y=f(x) 在某点处可导,那么函数在该点必连续,反之,函数在某点连续却不一定在该点可导(由性质1可得)。


2、基本初等函数的导数公式

C ′ = 0 C'=0 C=0 ( x μ ) ′ = μ x μ − 1 (x^{\mu})'=\mu x^{\mu-1} (xμ)=μxμ1 sin ⁡ ′ x = cos ⁡ x \sin' x=\cos x sinx=cosx cos ⁡ ′ x = − sin ⁡ x \cos'x=-\sin x cosx=sinx ( a x ) ′ = a x ln ⁡ a ( a > 0 , a ≠ 1 ) (a^{x})'=a^{x}\ln a(a>0,a\neq1) (ax)=axlna(a>0,a=1) ( e x ) ′ = e x (e^{x})'=e^{x} (ex)=ex ( log ⁡ a x ) ′ = 1 x ln ⁡ a ( a > 0 , a ≠ 1 ) (\log_{a}x)'=\frac{1}{x\ln a}(a>0,a\neq1) (logax)=xlna1(a>0,a=1) ln ⁡ ′ x = 1 x \ln' x=\frac{1}{x} lnx=x1 arcsin ⁡ ′ x = 1 1 − x 2 \arcsin'x=\frac{1}{\sqrt{1-x^{2}}} arcsinx=1x2 1 arccos ⁡ ′ x = − 1 1 − x 2 \arccos'x=-\frac{1}{\sqrt{1-x^{2}}} arccosx=1x2 1 arctan ⁡ ′ x = 1 1 + x 2 \arctan'x=\frac{1}{1+x^{2}} arctanx=1+x21 a r c c o t ′ x = − 1 1 + x 2 arccot'x=-\frac{1}{1+x^{2}} arccotx=1+x21


3、函数的求导法则

        1)初等函数的求导法则,如果函数 u = u ( x ) u=u(x) u=u(x) v = v ( x ) v=v(x) v=v(x) 都在点 x x x 具有导数,那么它们的和、差、积、商(除分母为零的点外)都在点 x x x 具有导数,且
                 ( 1 ) [ u ( x ) ± v ( x ) ] ′ = u ′ ( x ) ± v ′ ( x ) ; (1)[u(x)\pm v(x)]'=u'(x)\pm v'(x); 1[u(x)±v(x)]=u(x)±v(x)

                 ( 2 ) [ u ( x ) v ( x ) ] ′ = u ′ ( x ) v ( x ) + u ( x ) v ′ ( x ) ; (2)[u(x)v(x)]'=u'(x)v(x)+u(x)v'(x); 2[u(x)v(x)]=u(x)v(x)+u(x)v(x)

                 ( 3 ) [ u ( x ) v ( x ) ] ′ = u ′ ( x ) v ( x ) − u ( x ) v ′ ( x ) v 2 ( x ) ( v ( x ) ≠ 0 ) 。 (3)[\frac{u(x)}{v(x)}]'=\frac{u'(x)v(x)-u(x)v'(x)}{v^{2}(x)}(v(x)\neq0)。 3[v(x)u(x)]=v2(x)u(x)v(x)u(x)v(x)(v(x)=0)

        2)反函数的求导法则,如果函数 x = f ( y ) x=f(y) x=f(y) 在区间 I y I_{y} Iy 内单调、可导且 f ′ ( y ) ≠ 0 f'(y)\neq0 f(y)=0 ,那么它的反函数 y = f − 1 ( x ) y=f^{-1}(x) y=f1(x) 在区间 I x = { x ∣ x = f ( y ) , y ∈ I y } I_{x}=\{x|x=f(y),y\in I_{y}\} Ix={xx=f(y),yIy} 内也可导,且 [ f − 1 ( x ) ] ′ = 1 f ′ ( y ) [f^{-1}(x)]'=\frac{1}{f'(y)} [f1(x)]=f(y)1 d y d x = 1 d x d y \frac{dy}{dx}=\frac{1}{\frac{dx}{dy}} dxdy=dydx1

        3)复合函数的求导法则,如果 u = g ( x ) u=g(x) u=g(x) 在点 x x x 可导,而 y = f ( u ) y=f(u) y=f(u) 在点 u = g ( x ) u=g(x) u=g(x) 可导,那么复合函数 y = f [ g ( x ) ] y=f[g(x)] y=f[g(x)] 在点 x x x 可导,且其导数为 d y d x = f ′ ( u ) ∗ g ′ ( x ) \frac{dy}{dx}=f'(u)*g'(x) dxdy=f(u)g(x) d y d x = d y d u ∗ d u d x \frac{dy}{dx}=\frac{dy}{du}*\frac{du}{dx} dxdy=dudydxdu


4、高阶导数

        定义:函数 y = f ( x ) y=f(x) y=f(x) 的导数 y ′ = f ′ ( x ) y'=f'(x) y=f(x) 仍然是 x x x 的函数,我们把 y ′ = f ′ ( x ) y'=f'(x) y=f(x) 的导数叫做函数 y = f ( x ) y=f(x) y=f(x)二阶导数,记作 y ′ ′ y'' y′′ d 2 y d x 2 \frac{d^{2}y}{dx^{2}} dx2d2y ,类似地,二阶导数的导数,叫做三阶导数,三阶导数的导数叫做四阶导数,一般地, ( n − 1 ) (n-1) (n1) 阶导数地导数叫做 n n n 阶导数,函数 y = f ( x ) y=f(x) y=f(x) 具有 n n n 阶导数,也常说成函数 f ( x ) f(x) f(x) n n n 阶可导。二阶及二阶以上的导数统称为高阶导数


5、函数的微分

        定义:设函数 y = f ( x ) y=f(x) y=f(x) 在某区间内有定义, x 0 x_{0} x0 x 0 + Δ x x_{0}+\Delta x x0+Δx 在这区间内,如果函数的增量 Δ y = f ( x 0 + Δ x ) − f ( x 0 ) \Delta y=f(x_{0}+\Delta x)-f(x_{0}) Δy=f(x0+Δx)f(x0) 可表示为 Δ y = A Δ x + o ( Δ x ) \Delta y=A\Delta x+o(\Delta x) Δy=AΔx+o(Δx) ,其中 A A A 是不依赖于 Δ x \Delta x Δx 的常数,那么称函数 y = f ( x ) y=f(x) y=f(x) 在点 x 0 x_{0} x0可微的,而 A Δ x A\Delta x AΔx 叫做函数 y = f ( x ) y=f(x) y=f(x) 在点 x 0 x_{0} x0 相应于自变量增量 Δ x \Delta x Δx微分,记作 d y dy dy ,即 d y = A Δ x dy=A\Delta x dy=AΔx

        微分运算法则:要计算函数的微分,只要计算函数的导数,再乘自变量的微分即可。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值