目录:
1:向量
2:线性变换
3:矩阵
4:倒数&偏导数
5:梯度
6:概率学基础
7:熵
8:kl散度
一:向量
二:线性变换
三:矩阵
矩阵就是充满数字的表格
矩阵加减法:
两个矩阵相加减,需要满足两个矩阵的行列数相等
加法交换律:A +B = B +A
矩阵乘法
A*B,需要满足A的列数等于B的行数
单位矩阵:
nxn矩阵对角线上的元素全是1,其余元素都为0;
A为nxn矩阵,I为单位矩阵,则AI=IA=A
单位矩阵在乘法中的作用就相当于数字1.
逆矩阵:
三阶矩阵的逆矩阵求法
奇异矩阵:
当一个矩阵没有逆矩阵的时候,称该矩阵为奇异矩阵
当且仅当一个矩阵的行列式为0时,该矩阵为奇异矩阵
当ad - bc= 0时,|A|没有定义,A的逆矩阵不存在,A是奇异矩阵
矩阵的转置:
就是行列互换
转置运算特性
对称矩阵:
如果一个矩阵转置后等于原矩阵,那么这个矩阵成为对称矩阵
一个矩阵转置和这个矩阵的乘积就是一个对称矩阵
欧式变换
其由两部分组成:旋转和平移
4:导数&偏导数
导数(微分):是代表函数(曲线)的斜率,是描述函数(曲线)变化快慢的量,同时曲线的极大值点也可以用导数来判断,即极大值点的导数为0,此时斜率为0
偏导数:是指在多元函数的情况下,对其每个变量求导,吧其他变量看做常亮进行处理,物理意义就是查看这个变量在其他情况不包边的情况下对函数的影响程度
5:梯度(比较重要的一个概念)
梯度:是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向去的最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)
梯度下降法:是一种寻找函数极小值的方法
该方法最普通的做法是:在已知参数当前值的情况下,按当前点对应的梯度向量的反方向,并按照事先给定好的步长大小,对参数进行调整
按此方法对参数做出多次调整之后,函数就会逼近一个极小值
存在的问题:
①:参数调整缓慢 ②:收敛于局部最小值
有关详细的梯度下降为什么是函数下降最快的方向可参考链接:梯度为什么是函数值增加最快的方向
6:概率学基础
时间与关系运算
运算定律
概率的基本概念:
(1)概率:时间发生的可能性大小的度量,其严格定义如下:
概率P(g)为顶你已在时间集合上的满足下面两个条件的函数:
1)对任何时间A,P(A) >= 0
2)对必然事件B,P(B) = 1
(3)古典型概率:实验的所有结果只有有限个,并且每个结果发生的可能性相同,其概率公式为:
独立性
时间A与B独立的条件,AB同时发生的概率和A单独发生以及B单独发生的概率是一样的
离散:
离散就是不连续性:照片就是离散的,我们人眼看到的就是连续的
数学期望(均值):
表示一件事平均发生的概率,记为E(X),或者
方差:
用来刻画随机变量x和数学期望E(x)之间的偏离程度,记做D(x)
标准差(均方差):
标准差是方差的算术平方根。标准差能反映一个数据集的离散程度
正态分布(高斯分布):
若随机变量X服从一个数学期望为u、方差为^2的正态分布,记为N(u,
^2).
u决定了其位置(中心线),其标准差决定了分布的幅度(胖瘦)。
标准正态分布:
当u=0,=1时的镇哪个台分布式标准正态分布
7:熵
信息量:信息量指的是信息多少的量度
物理学上,是“混乱”程度的量度
系统越有序,熵值越低;系统越混乱或者分散,熵值越高
信息理论:
1、当系统的有序状态一致时,数据越集中的地方熵值越小,数据越分散的地方熵值越大。这是从信息的完整性上进行的描述
2、当数据量一致时,系统越有序,熵值越低;系统越混乱或者分散,熵值越高。这是从信息的有序性上进行的描述
若不确定性越大,则信息量越大,熵越大
若不确定性越小,则信息量越小,熵越小
加入事件A的分类划分是(A1,A2,....,An),每部分发生的概率是(p1,p2,...pn),那信息熵定能够以公式如下:
8:kl散度(相对熵)(网络优化目标)
kl散度是一种衡量两个概率分布的匹配程度的指标,两个分布差异越大,KL散度越大
KL散度的用途:比较两个概率分布的接近程度
定义如下:
小白学习中,如有侵权,请联系我删除;
后续还会对这一部分进行补充,纯属笔记。