随机梯度下降(SGD)的原理:
对L(w)进行一阶泰勒展开,w[t]是当前自变量值:
L(w[t]) + L(w[t])' * (w[t+1]-w[t])
如何让右边的最小化?答:L(w[t])是常量定值,L(w[t])是向量(也是常量定值),w[t+1]-w[t]是向量,两个向量相乘如何最小化:当两个向量方向相反时,乘积最小化;因此"w[t+1]-w[t]=-L(w[t])*学习率" 时,乘积最小化,等价于L(w)近似最小化;
牛顿法:
对L(w)做二阶泰勒展开,有w的二次项,可以直接求闭式解(一步到位求出来)
缺点:闭式解里有二阶导矩阵的逆矩阵(Hessian矩阵),计算量较大;
改进:拟牛顿法,避免求这个Hessian矩阵;
神经网络表达能力强的理论基础:带有非线性变换的神经网络(即便只有一层),只要节点足够多,是可以拟合任意复杂的函数的
SVM: 设计之初就考虑了留出边界地带的问题;(为的是让margin上或离margin近的点,有点儿微小扰动,不会被分错,即鲁棒性好)
映射到高维空间后,原先在低维空间里挤在一起的点们,被拉到了更大的空间里,变得更稀疏(彼此离得更远),因此很容易可分了;
Boosting的好性质:无过拟合现象:训练误差越小(即使小至0),测试集误差也越小;
集成学习:
应用十分广泛;
引入Diversity: 各种方式;
用SVM做基础分类器进行集成学习,为什么效果差:因为1. SVM是求确定解的,没有多少随机性在里面;2.每个SVM只有边界上的几个样本起作用,所以样本Sampling的效果就不明显了;