机器学习-2

BigDeng_2014

于 2018-05-30 23:41:37 发布

阅读量250

点赞数

分类专栏：网络技术-互联网

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/BigDeng_2014/article/details/80517869

版权

网络技术-互联网专栏收录该内容

11 篇文章 0 订阅

订阅专栏

四步曲：
怎么学到
为何能学
如何强大
怎么学好

80%精力在模型之外

基于概率的信任（大数定律）

两个思想：所有信息都观测到的情况下，结果是否能够确定。
1、定值：频率学派。先验分布是不变的。
2、分布：贝叶斯学派。根据观测的数据改变先验的分布。

1、世界是确定的：因果律与经典物理。
2、不确定性与量子物理：哥本哈根学派。

只能保证在已有样本上是有效的。怎样保证对未来的数据也有效？
1、增加假设空间中的假设的数量。
2、将样本数量增加，假设的数量也会增加。
3、将大数定律在机器学习中应用。VC-dim = 特征数量 + 1

最重要的权衡：
过拟合和欠拟合的权衡。
细致和置信的权衡。
模型复杂度M的选择。线性模型或多项式模型（非线性）
模型复杂度过低的误差Bias（欠拟合偏差）和模型复杂度过高的误差Variance（过拟合方差）。
利用领域知识缩减假设空间的维度来减少误差。
利用样本数量增加来减少方差。

防止过拟合的发生：
1、数据中随机误差过多。把误差当规律来学习。
2、样本量和模型复杂度不匹配。样本量少，模型复杂度大。
3、模型复杂度大会导致前两个问题更严重。

在不该想的时候就不要瞎想。 - 控制模型的复杂度。
正则化：
校验：预留样本空间中的一部分样本来校验。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。