A. 损失函数
分类:1. 0-1损失(非凸,非光滑,很难对其求导);2.Hinge损失(SVM用的,分对了但如果离分界面太近也有损失;在fy=1处不可导);3.Logistic损失(LR用的,这里的f就是; 可用梯度下降求导)
回归:1. 平方误差损失函数(MSE损失);2. 平均绝对值损失函数(MAE损失);对比:MSE对异常值敏感,容易被一两个异常噪音导致模型为了迎合噪音而牺牲更多正常点的预测精度;MAE对异常值鲁棒些,但处处梯度都相等,不利于梯度下降求解模型,且在0处不可导;3.Huber损失函数(综合了MSE和MAE,在0附近用MSE,远处用MAE)
B. 凸函数的概念;损失函数的二阶Hessian矩阵如果是半正定矩阵,则该损失函数是凸函数;凸优化问题的局部最小值肯定是全局最小值;
C. 无约束优化问题的优化方法:
1. , 进行一阶泰勒展开,然后再加上的L2正则项,然后取最优的使得该式子最小;该方法的结果,等价于梯度下降的结果;
2. , 进行二阶泰勒展开,涉及到L在处的二阶Hessian矩阵及其逆矩阵;叫牛顿法;(收敛速度远比一阶法要快)
二阶矩阵求逆的计算复杂度太高(尤其是维度很高时):1970年提出了BFGS算法,1989年提出了低存储的L-BFGS算法;
D. 用导数的定义,验证求导结果是否正确;当w是多维向量时,应该只在一个维度上为1,其余维度都为0;(当然要乘以一个小量)
E. batch梯度下降,随机梯度下降,mini-batch梯度下降;
F. 随机梯度下降震荡波动大;
G. 冲量的作用:1.鞍点停滞:动量可以让其冲出平坦区域;2.山谷震荡:动量可以让其抵消途中旁力的干扰,轨迹更稳健
Adam: 分子是梯度一阶矩形成的动量;分母是梯度二阶矩形成的自适应学习率(对常明显的梯度维度进行惩罚,对罕见的梯度维度进行增强);分子分母都用了moving window average强调最近窗口;
H. 稀疏性:把没用的特征置为0,可以提升模型的泛化性,降低过拟合;
L1正则化为什么比L2正则化更能得到稀疏性:
1. 等高线解释;KKT条件解释;
2. 函数叠加解释;
3. 贝叶斯先验解释:L1正则化相当于引入了拉普拉斯先验;L2正则化相当于引入了高斯先验;前者在0处是尖峰,所以更易让w取值为0;后者在0处平坦,所以只会让w绝对值变小但不至于变为0;