机器学习基础02-高等数学

微积分

集合与函数

  • 集合基本概念
  • 集合的运算
  • Venn图
  • 函数

集合定义

  • 定义一: 具有某种特定性质的事物的总体
  • 元素:组成这个集合的事物
  • 如:实数集R是一个集合,任何一个实数都是这个集合的元素;你书架上的所有的书就是一个集合,其中你的一本书是他的元素。
  • 表示方式:通常以大写的字母 A , B , C A,B,C A,B,C来表示集合,使用小写字母 a , b , c a,b,c a,b,c等表示集合的元素。若 a a a A A A的元素,则说 a a a属于 A A A,记作 a ∈ A a\in{A} aA,否则说 a a a不属于 A A A,记作 a ∉ A a\notin{A} a/A

集合的表示方法

  • 列举法:把集合中的全部元素一一列出来,外加花括号。例如: A = { 1 , 2 } A=\{1,2\} A={1,2},优点:简单明了;缺点:元素太多时无法列全,不能表示无限集合
  • 描述法:列出规定这个集合特定的性质P,例如: { x ∣ x 2 − 2 x − 3 = 0 } \{x|x^2-2x-3=0\} {xx22x3=0}的解。优点:可以表示任何集合,够简洁,缺点:性质P不容易抽象

集合的分类

  • 有限集:由有限集组成,例如全体中国人,你所有的书等
  • 无限集:由无限个元素组成的集合,例如整数集,实数集等
  • 空集:不包含任何元素的集合,用符号 ϕ \phi ϕ表示
  • 常用数集: N N N自然数集 Z Z Z整数集 Q Q Q有理数集 R R R实数集

集合运算

A = { 1 , 2 , 3 , 4 , 5 } , B = { 1 , 3 , 5 , 7 , 9 } , C = { 1 , 3 } A=\{1,2,3,4,5\}, B=\{1,3,5,7,9\}, C=\{1,3\} A={1,2,3,4,5},B={1,3,5,7,9},C={1,3}

  • 交运算:两个集合当中的共有元素,用符号 ∩ \cap 表示。例如, A ∩ B = C A\cap{B}=C AB=C
  • 并运算:两个集合当中的全部元素,用符号 ∪ \cup 表示。例如: A ∪ B = { 1 , 2 , 3 , 4 , 5 , 7 , 9 } A\cup{B}=\{1,2,3,4,5,7,9\} AB={1,2,3,4,5,7,9}
  • 补运算:由属于 A A A而不属于 B B B的元素组成的集合,称为 B B B关于 A A A的相对补集,记作 A − B A-B AB A B A\\B AB如: A − C = { 2 , 4 , 5 } A-C=\{2,4,5\} AC={2,4,5}
  • 子集:如果 A A A的所有元素都属于 B B B,则称 A A A B B B的子集,记为 A ⊆ B A\subseteq{B} AB。例如: C ⊆ A C\subseteq{A} CA

Venn图

在这里插入图片描述

函数

定义,设有两个变量 x x x y y y,如果对于 D D D中的每个 x x x值,按照一定的法则,变量 y y y总有唯一的数值与之对应,则称变量 y y y为变量 x x x的函数,记作 y = f ( x ) y=f(x) y=f(x)

其中 x x x称为自变量, y y y称为因变量;自变量所有可能取值的集合称为定义域, y y y因变量所有可能取值的集合称为值域,一定的法则 f f f称为对应关系。

函数的二要素 :定义域与对应关系

注:定义域是自变量所能取的使算式有意义的一切数值

极限

区间

**有限区间 **,开区间 ( a , b ) (a,b) (a,b) 闭区间 [ a , b ] [a,b] [a,b],半开区间 ( a , b ] (a,b] (a,b]

无限区间, ( − ∞ , b ) (-\infty,b) (,b), [ a , + ∞ ) [a,+\infty) [a,+)

邻域

a a a δ \delta δ是两个实数,且 δ &gt; 0 \delta&gt;0 δ>0,数集 x ∣ ∣ x − a ∣ &lt; δ {x||x-a|&lt;\delta} xxa<δ被称为点 a a a δ \delta δ邻域,点 a a a叫做这邻域的中心, δ \delta δ叫做这邻域的半径。
U δ ( a ) = { x ∣ a − δ &lt; x &lt; a + δ } U_{\delta}(a)=\{x|a-\delta&lt;x&lt;a+\delta\} Uδ(a)={xaδ<x<a+δ}
a a a的去心的 δ \delta δ邻域,记作 U δ 0 U_{\delta}^0 Uδ0 U δ = { x ∣ 0 &lt; ∣ x − a ∣ &lt; δ } U_{\delta}=\{x|0&lt;|x-a|&lt;\delta\} Uδ={x0<xa<δ}

数列的极限

∀ ε &gt; 0 , 若 ∃ N &gt; 0 , 使 当 n &gt; N 时 , 有 ∣ x n − a ∣ &lt; ε 成 立 \forall\varepsilon&gt;0,若\exist{N}&gt;0,使当n&gt;N时,有|x_n-a|&lt;\varepsilon成立 ε>0,N>0,使n>Nxna<ε,则称数列 { x n } \{x_n\} {xn} n → ∞ n\to\infty n时,以 a a a为权限,记为:
lim ⁡ n → ∞ x n = a \lim_{n\to\infty}x_n=a nlimxn=a
注: ∀ \forall 为 对 任 意 的 , ∃ 为对任意的,\exist 为存在

函数的极限性质

设是定义在 a a a点去心邻域上的函数

四则运算

复合函数的极限

保号性

夹逼准则

洛必达法则

f ( x ) = s i n ( x ) x f(x)=\frac{sin(x)}{x} f(x)=xsin(x) x → 0 x\to0 x0的极限是?

连续与微分

知识点:

  • 函数的连续性
  • 函数的间断点
  • 导数与微分

增量的定义

设函数 f ( x ) f(x) f(x) U δ ( x 0 ) U_\delta(x_0) Uδ(x0)内有定义, ∀ x ∈ U δ ( x 0 ) \forall{x}\in{U_{\delta}(x_0)} xUδ(x0) Δ x = x − x 0 \Delta{x}=x-x_0 Δx=xx0,称自变量在点 x 0 x_0 x0的增量。 Δ y = f ( x ) − f ( x 0 ) \Delta{y}=f(x)-f(x_0) Δy=f(x)f(x0),称为函数 f ( x ) f(x) f(x)相应于 Δ x \Delta{x} Δx的增量

连续性

如果函数 f ( x ) f(x) f(x)在某点 x x x的邻域内有定义,在这点的极限 lim ⁡ x → x 0 f ( x ) \lim_{x\to{x_0}}f(x) limxx0f(x)存在,且极限值等于该点的函数值,则称该函数在该点处 x = x 0 x=x_0 x=x0连续。

x = x 0 + Δ x x=x_0+\Delta{x} x=x0+Δx, Δ y = f ( x ) − f ( x 0 ) \Delta{y}=f(x)-f(x_0) Δy=f(x)f(x0), Δ x → 0 \Delta{x}\to0 Δx0就是 x → x 0 x\to{x_0} xx0, Δ y → 0 \Delta{y}\to0 Δy0就是 f ( x ) → f ( x 0 ) f(x)\to f(x_0) f(x)f(x0).

试证:
f ( x ) = { x s i n x 1 , x ≠ 0 0 , x = 0 } f(x)=\left\{ \begin{matrix} xsin_x^1,x \ne0 \\ 0,x=0 \end{matrix} \right\} f(x)={xsinx1,x̸=00,x=0}
在x=0处连续

间断点

函数在某点处连续必须满足三个条件:

  • 在这点邻域内有定义
  • 在这一点的极限存在
  • 极限值等于函数值

如果有一个条件不满足,则称函数在此点不连续,或间断,并称点为函数的不连续点,间断点。

导数与微分

是优化算法的基础

函数的导数

设函数在某点的某去心邻域内有定义,当自变量在此点处取得增量(增量不超过邻域),相应地函数取得增量,如果函数值增量与自变量增量之比,在自变量增量 → 0 \to0 0时极限存在,则称函数在此点可导,并称这个极限为函数在此点的导数,记为 y ′ ∣ x = x 0 y&#x27;\mid_{x=x_0} yx=x0

导数四则运算

复数函数求导

导数有什么用?

  • 链式求导法则:神经网络反向传播基础
  • 梯度下降法:最简单的优化方法,也是由导数延申出的概念

函数的微分

积分

  • 不定积分
  • 定积分
  • 二重积分

不定积分

微分与积分,是互逆运算

在某一区间上 F ′ ( x ) = f ( x ) F&#x27;(x)=f(x) F(x)=f(x),则称 F ( x ) F(x) F(x) f ( x ) f(x) f(x)在这个区间上的一个原函数

例: ( x 2 ) ′ = 2 x , ( s i n x ) ′ = c o s x (x^2)&#x27;=2x, (sinx)&#x27; = cosx (x2)=2x,(sinx)=cosx

所以: x 2 x^2 x2 2 x 2x 2x的一个原函数, s i n x sinx sinx c o s x cosx cosx的一个原函数

定义2,函数 f ( x ) f(x) f(x)的所有原函数,称为 f ( x ) f(x) f(x)的不定积分,记作: ∫ f ( x ) d x = F ( x ) + C \int{f(x)dx}=F(x)+C f(x)dx=F(x)+C

其中 ∫ 为 积 分 号 , f ( x ) 为 被 积 函 数 , d x 为 积 分 变 量 = F ( x ) + C 为 常 数 , f ( x ) d x 为 积 分 表 达 式 \int为积分号,{f(x)为被积函数,dx为积分变量}=F(x)+C为常数,f(x)dx为积分表达式 f(x)dx=F(x)+Cf(x)dx

不定积分的性质

对于积分符号直接求导就得到原函数
( ∫ f ( x ) d x ) ′ = f ( x ) 或 d ∫ f ( x ) d x = f ( x ) d x (\int{f(x)dx})&#x27;=f(x) 或 d\int{f(x)dx} = f(x)dx (f(x)dx)=f(x)df(x)dx=f(x)dx

∫ F ′ ( x ) d x = F ( x ) + C 或 ∫ d F ( x ) = F ( x ) + C \int{F}&#x27;(x)dx = F(x)+C 或 \int{dF(x)} = F(x) + C F(x)dx=F(x)+CdF(x)=F(x)+C

运算法则:
∫ a f ( x ) d x = a ∫ f ( x ) d x \int{af(x)dx} = a\int{f(x)dx} af(x)dx=af(x)dx

∫ [ f ( x ) ± g ( x ) ] d x = ∫ f ( x ) d x ± ∫ g ( x ) d x \int[f(x) \pm g(x)]dx = \int{f(x)dx} \pm \int{g(x)dx} [f(x)±g(x)]dx=f(x)dx±g(x)dx

∫ [ f ( x ) ± g ( x ) ] d x = ∫ f ( x ) d x ± ∫ g ( x ) d x \int[f(x) \pm g(x)]dx = \int{f(x)dx} \pm \int{g(x)dx} [f(x)±g(x)]dx=f(x)dx±g(x)dx

不定积分的基本公式

定积分的概念

设函数在区间上连续,且函数值大于等于0,则由直线x=a,x=b,x轴及曲线y=f(x)所围成的图形称为曲边梯形

定积分有积分上下限,经常对无规则封闭曲线围成的图形的面积进行求解

牛顿-莱布尼兹公式

微积分基本定理也可叫做牛顿-莱布尼兹定理
它是用求原函数的方法计算定积分的数值
定理1 f ( x ) f(x) f(x)在区间 [ a , b ] [a,b] [a,b]上连续,并且 F ( x ) F(x) F(x) [ a , b ] [a,b] [a,b]上的一个原函数,则:
∫ a b f ( x ) d x = F ( x ) ∣ a b = F ( b ) − F ( a ) \int_a^bf(x)dx=F(x)|_a^b=F(b)-F(a) abf(x)dx=F(x)ab=F(b)F(a)
例1:
∫ 0 1 x 2 d x \int_0^1x^2dx 01x2dx
例2:
∫ 0 x s i n x d x \int_0^xsinxdx 0xsinxdx
解:
∫ 0 1 x 2 d x = 1 3 d x 3 = 1 3 x 3 ∣ 0 1 = 1 3 ( 1 − 0 ) = 1 3 \int_0^1x^2dx=\frac{1}{3}dx^3=\frac{1}{3}x^3|_0^1=\frac{1}{3}(1-0)=\frac{1}{3} 01x2dx=31dx3=31x301=31(10)=31
∫ 0 x s i n x d x = − ∫ 0 x d c o s x = − ( c o s x ) ∣ 0 x = − ( c o s π − c o s 0 ) = − ( − 1 − 1 ) = 2 \int_0^xsinxdx=-\int_0^xdcosx=-(cosx)|_0^x=-(cos\pi-cos0)=-(-1-1)=2 0xsinxdx=0xdcosx=(cosx)0x=(cosπcos0)=(11)=2

定积分公式

二重积分

定义4 将区域 D D D任意分成 n n n个子域 Δ σ i ( i = 1 , 2 , . . . , n ) \Delta\sigma_i(i=1,2,...,n) Δσi(i=1,2,...,n),并以 Δ σ i \Delta\sigma_i Δσi表示第 i i i个子域的面积。在 Δ σ i \Delta\sigma_i Δσi上任取一点( ξ i , η i \xi_i,\eta_i ξi,ηi),作和 ∑ i = = 1 n f ( ξ i , η i ) Δ σ i \sum_{i==1}^nf(\xi_i,\eta_i)\Delta\sigma_i i==1nf(ξi,ηi)Δσi如果当各个子域的直径中的最大值 λ \lambda λ趋于零时,此和式的权限存在,则称此权限为函数 f ( x , y ) f(x,y) f(x,y)在闭区域 D D D上的二重积分。
记为:
∬ D f ( x , y ) d σ \iint_D{f}(x,y)d\sigma Df(x,y)dσ
即:
∬ D f ( x , y ) d σ = lim ⁡ λ → 0 ∑ i = 1 n f ( ξ i , η i ) Δ σ i \iint_D{f}(x,y)d\sigma=\lim_{\lambda\to0}\sum_{i=1}^nf(\xi_i,\eta_i)\Delta\sigma_i Df(x,y)dσ=λ0limi=1nf(ξi,ηi)Δσi
这时,称 f ( x , y ) f(x,y) f(x,y) D D D上可积,其中 f ( x , y ) f(x,y) f(x,y)称为被积函数, f ( x , y ) d σ f(x,y)d\sigma f(x,y)dσ称为被积表达式, D D D被为积分域, d σ d\sigma dσ称为面积元素, ∬ \iint 称为二重积分号

性质

∬ D k f ( x , y ) d σ = k ∬ D f ( x , y ) d σ ( k 为 常 数 ) \iint_Dkf(x,y)d\sigma=k\iint_Df(x,y)d\sigma(k为常数) Dkf(x,y)dσ=kDf(x,y)dσ(k)
∬ D [ f ( x , y ) ± g ( x , y ) ] d σ = ∬ D f ( x , y ) d σ ± ∬ D g ( x , y ) d σ \iint_D[f(x,y)\pm{g}(x,y)]d\sigma=\iint_Df(x,y)d\sigma\pm\iint_Dg(x,y)d\sigma D[f(x,y)±g(x,y)]dσ=Df(x,y)dσ±Dg(x,y)dσ
∬ D f ( x , y ) d σ = ∬ D 1 f ( x , y ) d σ + ∬ D 2 f ( x , y ) d σ 其 中 D 1 D 2 是 区 域 D 的 两 个 子 区 域 \iint_Df(x,y)d\sigma=\iint_{D_1}f(x,y)d\sigma+\iint_{D_2}f(x,y)d\sigma其中D1D2是区域D的两个子区域 Df(x,y)dσ=D1f(x,y)dσ+D2f(x,y)dσD1D2D
如果在D上, f ( x , y ) ≤ g ( x , y ) f(x,y)\le{g}(x,y) f(x,y)g(x,y),则 ∬ D f ( x , y ) d σ ≤ ∬ D g ( x , y ) d σ \iint_Df(x,y)d\sigma\le\iint_Dg(x,y)d\sigma Df(x,y)dσDg(x,y)dσ

矩阵求导与Hessian矩阵

  • 矩阵求导
  • Hessian矩阵

矩阵求导

  • 对标量求导
  • 对向量求导
  • 对矩阵求导,一般有两种方法:分子分局法;分母分局法

标量关于标量x的求导

d y d x \frac{dy}{dx} dxdy,最普通的求导

向量关于标量x的求导

设向量 y = [ y 1 , y 2 , . . . , y n ] T y=[y1,y2,...,yn]^T y=[y1,y2,...,yn]T,关于标量求导就是 y y y的每一个元素分别对 x x x求导,可以表示为:
d y d x = [ d y 1 d x d y 2 d x d y n d x ] \frac{dy}{dx}=\left[ \begin {matrix} \frac{dy1}{dx} \\ \frac{dy2}{dx} \\ \frac{dyn}{dx} \end{matrix} \right] dxdy=dxdy1dxdy2dxdyn

矩阵关于标量x的求导

矩阵对标量的求导类似于向量关于标量的求导,也就是矩阵中的每个元素分别对标量x求导

A = { d y 11 d x b ⋯ e f g ⋯ j ⋮ ⋮ ⋱ ⋮ p q ⋯ t } A= \left\{ \begin{matrix} \frac{dy_{11}}{dx} &amp; b &amp; \cdots &amp; e\\ f &amp; g &amp; \cdots &amp; j \\ \vdots &amp; \vdots &amp; \ddots &amp; \vdots \\ p &amp; q &amp; \cdots &amp; t \end{matrix} \right\} A=dxdy11fpbgqejt

标量关于向量x的导求数

标量y关于向量 x = [ x 1 , x 2 , . . . , x n ] T x=[x1,x2,...,xn]^T x=[x1,x2,...,xn]T的求导可以表示为(以分子布局法为例):
∂ y ∂ x = [ ∂ y ∂ x 1 ∂ y ∂ x 2 . . . ∂ y ∂ x n ] \frac{\partial{y}}{\partial{x}}=[\frac{\partial{y}}{\partial{x_1}} \frac{\partial{y}}{\partial{x_2}}...\frac{\partial{y}}{\partial{x_n}}] xy=[x1yx2y...xny]

向量关于向量x的导数

对于向量求导,我们可以先将向量看做一个标量,然后使用标量求导法则,最后将向量形式化为标量进行。
设向量函数(即函数组成的向量)

矩阵关于向量x的导数

标量关于矩阵的导数

对于m*n矩阵求

向量关于矩阵的导数

设p维向量 y = y= y=

矩阵关于矩阵的导数

会生成一个超级矩阵……

区别

分子布局法

  • 求导结果的维度,和分子维度一致
  • 如果向量 y y y是一个 m m m维的列向量,求导结果 ∂ y / ∂ x \partial{y}/\partial{x} y/x也是一个 m m m维列向量
    分母分局法
  • 求导结果的维度,和分母维度一致
  • 如果向量 y y y是一个 m m m维的列向量,求导结果 ∂ y / ∂ x \partial{y}/\partial{x} y/x也是一个 m m m维行向量
    对于分子布局和分母布局的结果来说,两者相差一个转置

Hessian矩阵

定义 f ( x ) f(x) f(x)是一个二阶可微分的标量函数,其中 x = ( x 1 , x 2 , . . . , x n ) T x=(x_1,x_2,...,x_n)^T x=(x1,x2,...,xn)T
那么定义 f ( x ) f(x) f(x) x x x的海森矩阵为 ∂ 2 f ( x ) ∂ x ∂ x T \frac{\partial^2f(x)}{\partial{x}\partial{x}^T} xxT2f(x)
例:求 f ( x ) = 2 x 1 + x 2 2 + 2 x 3 2 + x 1 x 3 − x 1 x 2 f(x)=2x_1+x_2^2+2x_3^2+x_1x_3-x_1x_2 f(x)=2x1+x22+2x32+x1x3x1x2的Hessian矩阵

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值