数据挖掘01

最新推荐文章于 2024-07-20 20:38:51 发布

FanWalker

最新推荐文章于 2024-07-20 20:38:51 发布

阅读量638

点赞数

分类专栏：数据挖掘文章标签：数据挖掘大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_60721468/article/details/124229449

版权

数据挖掘专栏收录该内容

1 篇文章 0 订阅

订阅专栏

利用脑图对数据挖掘的流程进行了简单的描述，但并不完整。之后会继续完善。
在这里插入图片描述
（也可能存在一定的错误）
有监督学习
有标签
预测的是离散值–分类
预测的是连续值–回归

无监督学习
无标签
预测–聚类
泛化能力
分布

归纳学习
狭义
广义概念学习布尔学习（是/否）

版本空间（与训练集一致的假设集合）
偏好（归纳偏好）
奥卡姆剃刀（若有多个假设符合，选择最简单的）
NFL定理告诉我们，但对于不同的算法来讲，总误差都相同（可能这一个测试集符合算法1，而下一个测试集复合算法2）
所以要结合具体实际去分析问题，不同的算法适用于不同的情况

经验误差与过拟合
错误率（错误样本数占总样本数)
精度（1-错误率）
学习器实际预测样本输出与真实样本输出的误差称为误差
在测试集中的误差称为经验误差/训练误差
在新样本中的误差称为泛化误差
经验误差很小的时候，往往是学习器将训练样本自身的特点进行了学习，会导致过拟合，从而使的泛化能力变差
过拟合经验误差小泛化误差大
欠拟合经验误差大泛化误差大
过拟合无法避免，只能进行缓解

训练集与测试集的选定
测试集中的元素最好应与训练集中的元素完全不同，否则得到的结果会过于乐观
用测试集上的误差作为泛化误差的近似

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
数据挖掘01

利用脑图对数据挖掘的流程进行了简单的描述，但并不完整。之后会继续完善。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

FanWalker 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。