吃瓜教程 task1

雷美替胺

已于 2024-04-24 22:22:03 修改

阅读量581

点赞数 30

文章标签：机器学习

于 2024-04-17 20:56:31 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_83735881/article/details/137864837

版权

本文介绍了机器学习的基本概念，包括数据集、监督学习（分类和回归）、无监督学习（聚类），以及模型评估方法如留出法、交叉验证、性能度量（如P-R曲线、AUC和代价敏感错误率）。作者强调了泛化能力和选择合适模型的重要性，以及评估模型时考虑的复杂性与简洁原则。

摘要由CSDN通过智能技术生成

第一章绪论

这一章主要介绍了一些机器学习的一些基本概念，对机器学习有了更深入的了解。

数据集(data set)、示例（） or 样本（sample）、属性（attribute）属性值（attribute value）、

属性空间（attribute space） or 样本空间 or 输入空间：这三个是同一个意思，属性张成的空间。

机器学习主要分两类

有监督学习 ：主要有分类和回归两种类型

无监督学习：聚类为代表，不需要标记信息，聚类：将训练集中的数据分成若干个组，每个组称为一簇（cluster）

假设空间：可能拟合训练集的模型

版本空间：所有能够拟合训练集的模型构成的集合

泛化（generalization）：训练得到的模型再新样本上面的预测能力的准确性，判断模型的好坏。

分布：假设样本服从一个D分布，然后通过足够多的样本来推测出D分布的信息，这就可以对新样本进行预测。这就很想一种经验学习，积累足够多的经验，来预测可能发生的事情。

奥卡姆剃刀(Occam‘s razor) ：若有多个假设与观察一致，那就选择最简单的那个。

“没有免费的午餐定理”(NFL)：无论算法多么聪明or笨拙，期望性能相同。这只是要告诉我们脱离具体问题，谈算法的优劣毫无意义。

“数据决定模型的上限，而算法则是让模型无限逼近上限“

第二章模型评估与选择

这一章的公式推导比较多，简单的还可以理解，稍微有点难的我就直接放弃了。

经验误差过拟合这些概念比较简单一些，而且之前了解的比较多就不再记录了。

评估方法

这个小节里面介绍的留出法、交叉验证(K-交叉验证)，自助法，这些方法之前有所了解过一点，我的理解就是对样本数据的不同的处理方法。总体来说，还是将样本分为训练集和验证集的不同方法。除此之外还存在一个测试集。

性能度量

P查准率(precision)[学习器预测为正例的样例中有多大比例是真正例]\R查全率(recall)[所有正例当中有多大比例被学习器预测为正例],一般来说二者是相互矛盾的变量，一个大另一个就要小

P-R曲线， BEP平衡点(Break-Event Point)P=R的点，肯定是越大越好啊

加权调和平均：这个指标就是为了，来表达我们对于P还是R更在看中那一个

ROC(受试者工作特征曲线)：这个名词之前再药代的里面听到过，不当是也没太理解是啥意思。

现在的理解就是真正例率与假正例率组成的图。ROC 曲线上每一个点所表示的意思就是在一特定的阈值下，学习器的二分类的预测水平。

横坐标假正比例(FPR)[实际为反例但预测为正例，所有反例中有多大被预测为正例]

纵坐标真正比例率(TPR)[所有正例中有多大比例被预测为正例即查全率]

AUC，ROC 的曲线下面积：简单的说就是面积越大学习器越好

代价敏感错误率（cost-sensitive）：比方说，本来正确的预测错误了，和本来错误的给预测正确了，这两种情况造成的影响大小是不一样的，可能把错的预测成对的代价要低，但把对的预测错了代价比较高，这时候就需要一个参数来体现出这种代价。

比较检验

这一部分内容之前数理统计的时候学过，总体感觉就是，会用就行，知道咋回事，

主要是没能力去推导和完全理解公式。

学习引用资料

https://github.com/datawhalechina/pumpkin-book

关注

30
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

雷美替胺 CSDN认证博客专家 CSDN认证企业博客

码龄1年

1: 原创

196万+: 周排名

23万+: 总排名

580: 访问

: 等级

40: 积分

5: 粉丝

30: 获赞

1: 评论

9: 收藏

私信

关注

热门文章

吃瓜教程 task1 581

最新评论

吃瓜教程 task1
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/618482522。

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。