第零章第1节——万丈高楼地下起

0.1 数学基础

本章列出深度学习中常用的线性代数、微积分和概率论中常用到的数学基础,这些基本的数学基础构成当前人工智能算法大厦的基石。

0.1.1 线性代数

0.1.1.1 标量、向量、张量和矩阵

  • 标量(scalar):一个单独的数(整数或实数)。如x
  • 向量(vector):线性代数中的向量分为行向量和列向量,在此处无特殊说明时向量指的是列向量既用一列“[]”括起来的数。如x向量克表示成

                                            

                                                                                              

        其中x_{1},x_{2}\begin{matrix} ... \end{matrix},x_{n}是向量的元素,若各元素均为实数,则将该n维向量记为\mathbf{x}\in \mathbb{R}^{n}

矩阵(matrix):由m\timesn个数排成的m行n列的表,如一个m行n列矩阵X可表示成

 

                                                                                               

其中x_{i,j}X矩阵的第i行第j列的元素(1\leq i\leq m,1\leq j\leq n)。我们将各元素均为实数的m行n列矩阵X记为X\in \mathbb{R}^{m\times n},,可以看出向量是特殊的矩阵。

  • 张量(tensor):在很多情况下,我们讨论的坐标超过二维,例如计算机视觉领域中图像的像素点值由RGB三个通道组成。一般的,一个数组中的元素分布在若干维坐标的规则网格中,我们称之为张量,用A表示张量“A”。张量A中坐标为(i,j,k)的元素记为A_{i,j,k}

0.1.1.2 运算

  • 內积(点乘):设n为向量\mathbf{a}中的元素为\mathbf{a}_{1},...\mathbf{a}_{n}n维向量b中的元素b_{1},...,b_{n} 。向量ab的內积是一个标量:

                                                                                                

  • 转置(transpose):矩阵的转置是以对角线为轴的镜像。设m行n列矩阵A如下:

     

                                                                                                 

    矩阵A转置后变成一个n行m列矩阵,它的每一行其实是原矩阵的每一列:

 

                                                                                                 

  • 矩阵加法(同型):设矩阵B如下:

                                                                                                  

       则矩阵A和矩阵B 的加法是对应位置元素的和:

                                                                                                  

  • 广播:在深度学习中,我们也使用一些不常规的运算,允许矩阵和向量相加产生 另一个矩阵称之为广播。

                                                                                                  \mathbf{C} = \mathbf{A}+ \mathbf{b}

        其中C_{i,j} = A_{i,j} + b_{j}

  • 两个矩阵按元素做乘法:我们使用符号\odot表示两个矩阵按元素做乘法的运算

                                                                                                  

  • 矩阵乘法:矩阵乘法和上述两个矩阵按元素做乘法不同。设Amn列的矩阵,Bp行n列的矩阵,则\mathbf{\mathit{A}}\times \mathbf{\mathit{B}}

                                                                                                                                                                               

        其结果为一个mn列的矩阵,其中第i行第j列(1\leq i\leq m,1\leq j\leq n)的元素为

                                                                                          a_{i1}b_{1,j} + a_{i2}b_{2,j} + ... +a_{ip}b_{p,j}= \sum_{k=1}^{p}a_{ik}b_{kj}

  • 标量与矩阵的乘法:标量k与矩阵\mathbf{\mathit{A}}的乘法是给矩阵\mathbf{\mathit{A}}逐元素乘以标量k

   

                                                                                             

  •    范数:一种衡量向量大小的函数。设n维向量x中的元素为x_{1},...x_{n}。向量xL_{p}范数定义如下

                                                                                           \left \| x \right \|_{p} = {\left ( \sum_{i} \left | x_{i} \right|^{p}\right )}\tfrac{1}{p}        

          其中p\in \mathbb{R},p\geq 1。范数(包括L_{p}范数)是将向量映射到非负值的函数。直观来说,向量x的范数衡量从原点到点\mathit{\mathbf{x}}的距离。

          当p=1时,xL_{1}范数是该向量元素绝对值之和:

                                                                                          \left \|x \right \|_{1} = \sum_{i=1}^{n}\left | x_{i} \right |

          当p=2时,xL_{2}范数是该向量元素平方和的平方根,L_{2}范数成为欧几里得范数。它表示从原点出发到向量x确定的点的欧几里得距            离:

                                                                                           \left \|x \right \|_{2} = \sqrt{\sum_{i=1}^{n}\left x_{i} ^{2}\right}

                 L_{2}范数在机器学习中频繁出现,简化表示为\left \| x \right \|

  • Frobenius范数:衡量矩阵的大小,如下

                                                                                           \left \| \mathbf{X} \right \|_{F} = \sqrt{\sum_{i=1}^{m}\sum_{j=1}^{n}x_{ij}^{2}}

        其中x_{ij}为矩阵\mathit{\mathbf{X}} 在第ij列的元素。

    0.1.1.3 特征向量和特征值

        方阵\textit{\mathbf{A}} 的特征向量是指与 \textit{\mathbf{A}} 相乘后相当于对该向量进行缩放的非零向量v

                                                                                            \textit{ \mathbf{A}}v = \lambda v 

         其中标量\lambda称为这个特征向量对应的特征值。                

0.1.2 微分

    0.1.2.1 导数和微分

                假设函数f :\mathbb{R}\rightarrow \mathbb{R}的输入和输出都是标量,则函数f的倒函数为

                                                                                           f^{'}(x)=\lim_{h\rightarrow 0}\frac{f(x + h)-f(x)}{h}  

    假定该极限存在。给定y= f(x),以下有关倒函数和微分的表达式等价:

                                                                                           f^{'}(x) = y^{'}=\frac{d_{y}}{d_{x}}=\frac{d_{f}}{d_{x}}=\frac{d}{d_{x}}f(x)=Df(x)=D_{x}f(x)

    常见导数公式DC=0C为常数)、Dx^{n}=nx^{n-1}De^{x}=e^{x}Dln(x)=1/x

    如果函数f和g都可到,设C为常数,那么

                                                                                             

   如果y=f(u)u=g(x)都是可导函数,根据链式法则

                                                                                            \frac{d_{y}}{d_{x}}=\frac{d_{y}}{d_{u}}\frac{d_{u}}{d_{x}}

   0.1.2.2 泰勒展开

                函数f的泰勒展开式是

                                                                                           f(x)\sim \sum_{n=0}^{\infty }\frac{f^{(n)}(a)}{n!}(x-a)^{n}

              注意:此处不能写“=”

             其中f^{(n)为函数fn阶导数,假设\varepsilon是一个足够小的数,如果将上式中xa分别替换成x+\varepsilonx,可以得到

                                                                                            f(x+\varepsilon )\approx f(x)+f^{'}(x)\varepsilon +\vartheta (\varepsilon ^{2})

             由于\varepsilon足够小,上式可以简化成

                                                                                             f(x+\varepsilon )\approx f(x)+f^{'}(x)\varepsilon

0.1.2.3 偏导数

            设 u为一个有n个自变量的函数,u=f(x_{1},x_{2},...,x_{n}),它有关第i个变量x_{i}的偏导数为

                                                                                             \frac{\partial u}{\partial x} = \lim_{h\rightarrow 0}\frac{f(x_{1},...,x_{i-1},x_{i+h},x_{i+1},...,x_{n})-f(x_{1},...,x_{i},...x_{n})}{h}

           以下有关偏导数的表达式等价:

                                                                                            \frac{\partial u}{\partial x_{i}} =\frac{\partial f}{\partial x_{i}}=f_{x_{i}}=f_{i}=D_{i}f=D_{x_{i}}f

0.1.2.4 梯度

            回顾下方向导数的概念,方向导数:函数在给定点P处沿特定方向l的变化率称作沿l的方向导数。

           梯度是这样一个向量:它的方向与取得最大方向导数的方向一致,而它的模为方向导数的最大值。

           定义:假设函数f(x_{1},x_{2},...,x_{n})\mathbb{R}\rightarrow \mathbb{R}的输入x是一个n维向量x=[x_{1},x_{2},...,x_{n}]^{\top },输出是标量。函数f(x)有关x的梯度是一个                        由n个偏导数组成的向量:

                                                                                            \bigtriangledown _{x}f(x)=\left [ \frac{\partial f(x)}{\partial x_{1}},\frac{\partial f(x)}{\partial x_{2}},...\frac{\partial f(x)}{\partial x_{n}} \right ]^{\top }

                     为简洁起见,我们有时用\bigtriangledown f(x)代替\bigtriangledown _{x}f(x)

          常见的梯度运算:

                                                                                              

 0.1.2.5 海森(Hessian)矩阵

             假设函数f(x_{1},x_{2},...,x_{n})\mathbb{R}\rightarrow \mathbb{R}的输入x是一个n维向量x=[x_{1},x_{2},...,x_{n}]^{\top },输出是标量函数f所有的二阶偏导数都存在,f

            的海森矩阵H是一个n行n列的矩阵:

                                                                                               

 0.1.3 概率

     0.1.3.1 条件概率

                 设\mathbf{\mathit{A}}\mathbf{\mathit{B}}是两个事件,切P(\mathbf{\mathit{A}})> 0,称

                                                                                          P(\mathbf{\mathit{A}} \mid \mathbf{\mathit{B}}) = \frac{P(\mathbf{\mathit{AB}})}{P(\mathbf{\mathit{B}})}

                其中 P(\mathbf{\mathit{AB}}) 为事件\mathbf{\mathit{A}}\mathbf{\mathit{B}} 同时发生的概率。

                由此可知 ,

                                                                                          P(\mathbf{\mathit{AB}}) = P(\mathbf{\mathit{B}})P(\mathbf{\mathit{A}} \mid \mathbf{\mathit{B}}) = P(\mathbf{\mathit{A}})P(\mathbf{\mathit{B}} \mid \mathbf{\mathit{A}}) 

                 事件\mathbf{\mathit{A}}和事件\mathbf{\mathit{B}}相互独立的条件为

                                                                                           P(\mathbf{\mathit{AB}}) = P(\mathbf{\mathit{A}}) P(\mathbf{\mathit{B}})

     0.1.3.2 期望、方差

                期望

                离散型随机变量\mathit{X}的期望(或平均值)为

                                                                                          E(X) = {\sum_{}^{x}}xP(X=x)   

               方差

                                                                                         D(X) = Var(x)=E\left \{ [X-E(X)]^{2} \right \}

               函数 f(x)关于某分布P(x)的期望指,当xP产生,f作用于x时,f(x)的平均值。

                                                                                          E_{x\sim p}\left [ f(x) \right ] = {\sum_{}^{x}}P(x)f(x)

               函数 f(x)关于某分布P(x)的方差

                                                                                          Var(f(x))=E\left \{ [(f(x)-E[(f(x)]^{2} \right \}

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值