【代数】
Moore-Penrose 伪逆
【概率信息论】
自信息,香农熵,衡量两个分布的差异:kl散度 \ 交叉熵
【数值】
溢出: softmax计算的时候要关注上溢和下溢,如果所有X都相等且为很小的负数的话,有分母为零的风险。
病态条件: 矩阵求逆对输入的误差可能很敏感,这样由于输入的不精确,会导致结果的不精确。
用条件数来衡量。条件数定义为
Jacobian和Hessian阵:
Jacobian阵,m维 to n维, nxm矩阵,yi To xj。多维输出的一阶导数
Hessian阵:m维 to 1维, mxm矩阵,二阶导数,对称阵。将其进行特征值分解,可以得到在哪个方向下降的比较快。正定的时候是局部最小值。
梯度下降法无法包含曲率信息,如果Hessian矩阵条件数过大,一阶方法往往会出问题。
如何计算Hessian阵? / 如何评估是否需要二阶优化?二阶优化在鞍点是有害的。
深度学习背景下凸优化重要性大大减少。
KKT条件,有空自己推一遍。。。