目录
神经元点火公式
单位阶跃函数(ReLu)
激活函数
将神经元的工作一般化。即将单位跃阶函数(u)。一般化为
将上式变为:
函数a是自定义的函数,称为激活函数
Sigmoid:是激活函数中的一种
将参数z整理为加权输入,即
将参数z带入Sigmoid中计算结果
神经网络
神经网络分为输入层,隐藏层和输出层
监督学习:根据给定的学习数据确定神经网络模型参数
模型最优化:使模型误差总和达到最小
代价函数
代价函数:预测值与正解的误差总和:计算预测值与正解的误差的平方,然后相加。
基础函数
一次函数:误差反向传播法推导时用
二次函数:代价函数使用
a为正数时图像向下凹,存在最小值
正态分布
正态分布:设定权重和偏置初始值使用正态分布
期望值为0,标准差为1为的正态分布称为标准正态分布
递推关系式
递推关系式:误差反向传播法中用到
已知首项和相邻两项,的关系式,就可以确定这个数列,这个关系称为递推关系式
已知递推关系式
计算的值
联立递推关系式
联立递推关系式:将多个数列的递推关系式联合起来组成一组,称为联立递推关系式
已知联立递推关系式:
计算a和的值
15,符号,表示数列的总和
具有线性性质
向量
向量是具有方向和大小的量,用箭头表示
向量的坐标表示:
向量的箭头长度称为这个向量的大小,向量a的大小用|a|表示
向量a,b的内积表示为:
11,柯西-施瓦茨不等式:
根据余弦函数的性质,对任意的,有,同时乘以|a||b|得到下式
(1)两个向量方向相反时,内积取最小值(梯度下降法的基本原理)
(2)两个向量方向平行时,内积取最大值(两个向量相似时内积最大)
向量内积的坐标表示
向量a和向量b的内积:
13,向量的一般化
向量的坐标表示
内积的坐标表示:对于两个向量
内积如下式:
神经单元加权输入公式为:
使用W和X两个向量,
将加权输入表示为内积形式
矩阵
矩阵(matrix)是数的阵列,如下所示,
横排称为行,竖排称为列。横排与竖排相同的矩阵称为方阵
如下所示的矩阵X,Y分别称为列向量,行向量
矩阵A的一般形式
对角线上的元素为1,其他元素为0的方阵称为单位矩阵,通常用E表示
矩阵运算
(1)矩阵相等
矩阵A,B相等的含义是他们对应的元素相等,记A=B
(2)矩阵的和,差,常数倍
矩阵的和,差定义为相同位置的元素的和,差。
(3)矩阵的乘积
将矩阵A的第i行的行向量与B的第j列的列向量的内积作为矩阵AB的第i行第j列的元素
,
(4)Hadamard乘积
对于相同形状的矩阵,将相同位置的元素相乘,由此产生的矩阵称为矩阵的Hadamard乘积用A⊙B
(5)转置矩阵
将矩阵A的i行第j列的元素与j行第i列的元素交换,由此产生的矩阵称为矩阵A的转置矩阵用
导数
函数y = f(x)导函数y = f'(x)的定义如下
16,神经网络中用到的函数导数公式
函数y=f(x)的导函数用f'(x)或者表示
导数的性质
(1)和的导数为导数的和,常数倍的导数为导数的常数倍
分数函数的求导公式如下
Sigmoid函数求导
最小值条件
当函数f (x)在x = a处取得最小值时f' (a) = 0
f'(a) = 0是函数f (x)在x = a处取得最小值的必要条件
神经网络的偏导数
在多变量函数中,关于某个特定变量的导数称为偏导数
函数z = f(x, y)中,只看变量x, 将y 看做常数求导,用下式表达
关于X的偏导数
关于y的偏导数
多变量函数的最小值条件
函数z = f(x, y)取得最小值的必要条件是
复合函数
已知函数z = f(u),当u表示为u = g(x)时,y作为x的函数可以表示为y = f(g(x))的嵌套结构。嵌套结构f(g(x))称为 f(u)和g(x)的复合函数,如下所示
链式法则求导
链式法则(复合函数求导公式,也称为链式法则。误差反向传播法必须的)
复合函数f(g(x))的导函数为
复合函数f(g(u(x)))的导函数为
多变量函数的链式法则,多变量函数求导
变量z为u,v的函数,u,v分别为x,y的函数,则:
多变量函数的近似公式
导数定义式:
将重新定义为“微小的值”,那么下式近似成立
将上式变形,可以得到单变量函数的近似公式
同理可以得到多变量函数的近似公式
定义
表示当x,y变化变化,时函数z = (f, x)的变化
经过上述简化可得
同理变量z为三个变量在x,y,w的函数时,近似公式