ML笔记（一）

最新推荐文章于 2021-01-29 11:53:26 发布

dooooos

最新推荐文章于 2021-01-29 11:53:26 发布

阅读量167

点赞数

分类专栏： ML

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dooooos/article/details/108353233

版权

ML 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1 线性回归的代价函数永远是凸函数
即只有全局最优，无局部最优

2 确定参数，降低代价函数的方法：
（1）.梯度下降法：当特征变量很多（大于10000)时，适用
（2）.正规方程法

过拟合(overfitting)：变量（features）过多而训练集太小时可能出现，出现时的特征为假设函数能很好地拟合训练集，代价函数接近于0。但是无法用于新的数据的预测。

解决过拟合的方法：
（1）减少特征变量的数量
（2）正则化

如何判断是否过拟合：
将训练集进行划分，一部分用于训练，一部分用于测试，例如7：3等。

正则化：在代价函数中，给某些相关性较低的参数添加“惩罚项”。来使这些参数变得很小。

将所有数据分为训练集，交叉验证集，测试集（常用比例为6：2：2）
先用训练集训练，再通过交叉验证集寻找合适的模型（通过交叉验证集确定多项式次数），最后用测试集得到模型的泛化误差

（1）如果训练集误差和验证集误差都很高，可能是欠拟合
（2）如果训练集误差很低、验证集误差很高（远远大于训练集误差），可能是过拟合

（1）出现高偏差情况（欠拟合）
增加特征数量
降低正则化参数

（2）出现高方差情况（过拟合）
收集更多训练样本
减少特征数量
增加多项式特征
加大正则化参数

通过查准率和召回率，解决不对称分类的误差评估

PCA(主成分分析)
将N维的特征向量降低到K维，需要找出K个向量，使得数据在这K维空间上的投影误差最小。

注：PCA不适合用于防止过拟合（虽然减少了特征数量），主要用于降维从而提高计算速度

10.异常检测算法和监督学习的选择依据
（1）.异常检测算法：当异常样本数量相比于正常样本很少时使用，将这些异常样本分配到交叉验证集和训练集中。训练集中只要放正常样本。
（2）监督学习：有大量的正常和异常的样本，

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。