机器学习篇二基础篇2

最新推荐文章于 2024-01-01 14:50:52 发布

Easy.miclover

最新推荐文章于 2024-01-01 14:50:52 发布

阅读量221

点赞数 1

分类专栏：面试总结机器学习

本文链接：https://blog.csdn.net/miclover_feng/article/details/82858144

版权

面试总结同时被 2 个专栏收录

17 篇文章 0 订阅

订阅专栏

机器学习

12 篇文章 0 订阅

订阅专栏

六、模型参数无约束优化问题

梯度下降法，最小二乘法、牛顿法、拟牛顿法、坐标轴下降法

线性回归的一般形式：

$h_{\theta}(\mathbf{X}) = \mathbf{X} \theta$

梯度下降法：

$\theta = \theta - \alpha\mathbf{X^{T}}(\mathbf{X}\theta - \mathbf{Y})$

最小的二乘法：

$\theta = \left ( \mathbf{X^{T}}\mathbf{X} \right )^{-1}\mathbf{X^{T}}\mathbf{Y}$

缺点：牛顿法是一种迭代算法，每一步都需要求解目标函数的Hessian矩阵的逆矩阵，计算比较复杂。

拟牛顿法，使用正定矩阵来近似Hessian矩阵的逆，从而简化了运算的复杂度

1、梯度下降法和最小二乘法相比：

1）梯度下降法需要选择步长，而最小二乘法不需要。

2）梯度下降法是迭代求解，最小二乘法是计算解析解。

3）如果样本量不算很大，且存在解析解，最小二乘法比起梯度下降法要有优势，计算速度很快。

4）但是如果样本量很大，用最小二乘法由于需要求一个超级大的逆矩阵，这时就很难或者很慢才能求解解析解了，使用迭代的梯度下降法比较有优势。

2、梯度下降法和牛顿法/拟牛顿法相比：

1）两者都是迭代求解，不过梯度下降法是梯度求解，而牛顿法/拟牛顿法是用二阶的海森矩阵的逆矩阵或伪逆矩阵求解。

2）相对而言，使用牛顿法/拟牛顿法收敛更快。但是每次迭代的时间比梯度下降法长。

3、梯度下降法和坐标轴下降相比：

七、PCA、LDA、SVD

1、PCA

PCA算法的主要优点有：

1）仅仅需要以方差衡量信息量，不受数据集以外的因素影响。　

2）各主成分之间正交，可消除原始数据成分间的相互影响的因素。

3）计算方法简单，主要运算是特征值分解，易于实现。

PCA算法的主要缺点有（可解释性、丢失信息）：

1）主成分各个特征维度的含义具有一定的模糊性，不如原始样本特征的解释性强。

2）方差小的非主成分也可能含有对样本差异的重要信息，因降维丢弃可能对后续数据处理有影响。

2、LDA

LDA是一种监督学习的降维技术，也就是说它的数据集的每个样本是有类别输出的。这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。LDA的思想可以用一句话概括，就是“投影后类内方差最小，类间方差最大”。我们要将数据在低维度上进行投影，投影后希望每一种类别数据的投影点尽可能的接近，而不同类别的数据的类别中心之间的距离尽可能的大。

PCA与LDA相同点：

1）两者均可以对数据进行降维。

2）两者在降维时均使用了矩阵特征分解的思想。

3）两者都假设数据符合高斯分布。

PCA与LDA不同点：

1）LDA是有监督的降维方法，而PCA是无监督的降维方法

2）LDA降维最多降到类别数k-1的维数，而PCA没有这个限制。

3）LDA除了可以用于降维，还可以用于分类。

4）LDA选择分类性能最好的投影方向，而PCA选择样本点投影具有最大方差的方向。

LDA算法的主要优点有：

1）在降维过程中可以使用类别的先验知识经验，而像PCA这样的无监督学习则无法使用类别先验知识。

2）LDA在样本分类信息依赖均值而不是方差的时候，比PCA之类的算法较优。

LDA算法的主要缺点有：

1）LDA不适合对非高斯分布样本进行降维，PCA也有这个问题。

2）LDA降维最多降到类别数k-1的维数，如果我们降维的维度大于k-1，则不能使用LDA。当然目前有一些LDA的进化版算法可以绕过这个问题。

3）LDA在样本分类信息依赖方差而不是均值的时候，降维效果不好。

4）LDA可能过度拟合数据。

3、SVD

左奇异矩阵可以用于行数的压缩。相对的，右奇异矩阵可以用于列数即特征维度的压缩，也就是我们的PCA降维。　

八、线性回归

九、逻辑回归

首先，利用了sigmoid函数的非常好的性质，即当z趋于无穷时，给g(z)趋向1，而当z趋于负无穷时，给g(z)趋向0，这非常适合逻辑回归这种分类概率模型。其次，g(z)求导简单（g’(z) = g(z)*(1-g(z))）。

回顾线性回归的损失函数，由于线性回归是连续的，所以可以使用模型误差的平方和来定义损失函数。但是逻辑回归不是连续的，所以我们使用了最大似然函数法来推到我们的损失函数。

推到的关键点：1）逻辑回归的定义，2）损失函数（极大似然）3）参数优化

LR在线性回归的实数范围输出值上施加sigmoid函数将值收敛到0~1范围, 其目标函数也因此从差平方和函数变为对数损失函数, 以提供最优化所需导数（sigmoid函数是softmax函数的二元特例, 其导数均为函数值的f*(1-f)形式）。请注意, LR往往是解决二元0/1分类问题的, 只是它和线性回归耦合太紧, 不自觉用了线性回归的名字(马甲无处不在). 若要求多元分类,就要把sigmoid换成大名鼎鼎的softmax了。

逻辑回归和线性回归首先都是广义的线性回归，其次经典线性模型的优化目标函数是最小二乘，而逻辑回归则是似然函数，另外线性回归在整个实数域范围内进行预测，敏感度一致，而分类范围，需要在[0,1]。逻辑回归就是一种减小预测范围，将预测值限定为[0,1]间的一种回归模型，因而对于这类问题来说，逻辑回归的鲁棒性比线性回归的要好。

逻辑回归的模型本质上是一个线性回归模型，逻辑回归都是以线性回归为理论支持的。但线性回归模型无法做到sigmoid的非线性形式，sigmoid可以轻松处理0/1分类问题。

参考资料：

李航《统计学习方法》

http://www.cnblogs.com/jiangxinyang/p/9337094.html

https://blog.csdn.net/wjwfighting/article/details/82532847

https://www.cnblogs.com/pinard/category/894692.html

https://www.baidu.com/link?url=HfzWgzeRIWPH08txoXXCO7lJBotxDpxOfRDJE44TUY_-sKMQnXXrXZ7e3-Vs9BBsjKsd7ZXZ9v8_QjWj4fcIzNHVxZ8PnbhWOmUUvjeff0m&wd=&eqid=ffca968a000e7f22000000035bab7277

声明：本人从互联网搜集了一些资料整理，由于查找资料太多，好多内容出处不能记得，如有侵权内容，请各位博主及时联系我，我将尽快修改，并注明出处，再次感谢各位广大博主的资料。

Easy.miclover

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习篇二基础篇2

目录六、模型参数无约束优化问题七、PCA、LDA、SVD1、PCA2、LDA3、SVD八、线性回归九、逻辑回归十、LR与线性回归六、模型参数无约束优化问题梯度下降法，最小二乘法、牛顿法、拟牛顿法、坐标轴下降法线性回归的一般形式： ...
复制链接

扫一扫

专栏目录