1. 标量、向量、矩阵和张量
标量:单独的数(通常小写的变量名称)
向量:一列数(通常粗体小写的变量名称)
矩阵:二维数组(通常粗体大写的变量名称)
张量:一个数组中的元素分布在若干维坐标的规则网络中,称之为张量
矩阵和向量相乘:
C=AB A的列=B的行
点积:两个维度相同的向量相乘,可以看成A的列和B的行相乘,与矩阵相乘不同,点积满足交换律,点积结果是标量
元素对应乘积(element-wise product)是对应元素相乘。
单位矩阵:主对角线全是1,其他位置都是0。
矩阵的逆:AA-1=I。
范数:向量x的范数衡量从原点到x的距离。
特殊类型矩阵:对角矩阵:只在主对角线上含有非零元素,其他位置都是0。
对称矩阵:矩阵的转置和自己相等的矩阵。
单位向量:具有单位范数的向量。
正交矩阵:行向量和列向量是分别标准正交的矩阵。(A的逆与A的转置相等)
2. 概率信息论
概率分布:用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小。(离散型,连续型;边缘和条件概率)
期望或期望值:当x由p产生,f作用于x时,f(x)的平均值。
方差:对x依据它的概率分布进行采样时,x的函数值会呈现多大的差异,其平方根是标准差。
协方差:两个变量线性相关性的强度以及这些变量的尺度。
相关系数:将每个变量的贡献归一化,只衡量变量的相关。(如果变量相互独立,协方差为0,如果协方差不为0,那一定是相关的)
常用概率分布:伯努利分布(二值随机变量分布)
多项分布:具有k个不同状态的单个离散型随机变量上的分布。
高斯分布:正态分布
指数分布 和拉普拉斯分布
狄拉克分布经常作为经验分布
混合分布
常用函数:sigmoid函数(通常用来产生伯努利分布的参数(0,1));softplus函数(0,∞)