Udacity_机器学习

最新推荐文章于 2020-03-16 01:17:23 发布

weixin_33887443

最新推荐文章于 2020-03-16 01:17:23 发布

阅读量52

点赞数

原文链接：http://www.cnblogs.com/sxbjdl/p/5655978.html

版权

有多条线可以降低绝对误差，但只有一条线可以降低平方误差和

Sum of Squared Errors (SSE)

监督学习

决策树（ID3算法、信息熵[父节点的信息熵=1]、信息增益）

计算信息熵

分类和回归

准确率的缺陷：

对于偏斜类（有很多样本点，但属于该类别的数目特别少）

绝不错杀一个

宁可天下人负我（试图找出所有相关人员）

模型可能出现的误差来自两个主要来源：

因模型无法表示基本数据的复杂度而造成的偏差

因模型对训练它所用的有限数据过度敏感而造成的方差

数据预处理五步走：

数据摘要通过变量的特征快速了解数据结构如变量的类型，非空值数量简单统计量（均值、方差...）等
清洗变量目的（保留尽量多的有效信息）类别变量-->数值变量，删掉冗余信息，填充NA等
拆分训练集合验证集目的（为训练模型和交叉验证做准备）
训练模型
预测结果

交叉验证主要是想通过模型的差异来抵消一部分模型本身的系统性误差，减小过拟合，增加总体稳健性

转载于:https://www.cnblogs.com/sxbjdl/p/5655978.html

weixin_33887443

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Udacity_机器学习

有多条线可以降低绝对误差，但只有一条线可以降低平方误差和SumofSquaredErrors(SSE)监督学习决策树（ID3算法、信息熵[父节点的信息熵=1]、信息增益）计算信息熵分类和回归准确率的缺陷：对于偏斜类（有很多样本点，但属于该类别的数目特别少）绝不错杀一个宁可天下人负我（试图找出所有相关人员）模型可能...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。