吃瓜教程 task1

本文介绍了机器学习的基本概念,包括数据集、监督学习(分类和回归)、无监督学习(聚类),以及模型评估方法如留出法、交叉验证、性能度量(如P-R曲线、AUC和代价敏感错误率)。作者强调了泛化能力和选择合适模型的重要性,以及评估模型时考虑的复杂性与简洁原则。
摘要由CSDN通过智能技术生成

第一章绪论

        这一章主要介绍了一些机器学习的一些基本概念,对机器学习有了更深入的了解。

        数据集(data set)、示例() or 样本(sample)、属性(attribute) 属性值(attribute value)、 

属性空间(attribute space) or 样本空间 or 输入空间:这三个是同一个意思,属性张成的空间。

机器学习主要分两类

监督学习 :主要有分类 和回归两种类型

无监督学习:聚类为代表,不需要标记信息,聚类:将训练集中的数据分成若干个组,每个组称为一簇(cluster

假设空间:可能拟合训练集的模型

版本空间:所有能够拟合训练集的模型构成的集合

泛化(generalization):训练得到的模型再新样本上面的预测能力的准确性,判断模型的好坏。

分布:假设样本服从一个D分布,然后通过足够多的样本来推测出D分布的信息,这就可以对新样本进行预测。这就很想一种经验学习,积累足够多的经验,来预测可能发生的事情。

奥卡姆剃刀(Occam‘s razor) :若有多个假设与观察一致,那就选择最简单的那个。

没有免费的午餐定理”(NFL):无论算法多么聪明or笨拙,期望性能相同。这只是要告诉我们脱离具体问题,谈算法的优劣毫无意义。

“数据决定模型的上限,而算法则是让模型无限逼近上限“

第二章 模型评估与选择

        这一章的公式推导比较多,简单的还可以理解,稍微有点难的我就直接放弃了。

经验误差过拟合这些概念比较简单一些,而且之前了解的比较多就不再记录了。

评估方法

         这个小节里面介绍的留出法交叉验证(K-交叉验证)自助法,这些方法之前有所了解过一点,我的理解就是对样本数据的不同的处理方法。总体来说,还是将样本分为训练集和验证集的不同方法。除此之外还存在一个测试集

性能度量

P查准率(precision)[学习器预测为正例的样例中有多大比例是真正例]\R查全率(recall)[所有正例当中有多大比例被学习器预测为正例],一般来说二者是相互矛盾的变量,一个大另一个就要小

​​​​​​​

P-R曲线, BEP平衡点(Break-Event Point)P=R的点,肯定是越大越好啊

加权调和平均:这个指标就是为了,来表达我们对于P还是R更在看中那一个

ROC(受试者工作特征曲线):这个名词之前再药代的里面听到过,不当是也没太理解是啥意思。

现在的理解就是 真正例率与假正例率组成的图。ROC 曲线上每一个点所表示的意思就是在一特定的阈值下,学习器的二分类的预测水平。

横坐标假正比例(FPR)[实际为反例但预测为正例,所有反例中有多大被预测为正例]

纵坐标 真正比例率(TPR)[所有正例中有多大比例被预测为正例 即查全率]

AUC,ROC 的曲线下面积:简单的说就是面积越大学习器越好

代价敏感错误率(cost-sensitive):比方说,本来正确的预测错误了,和本来错误的给预测正确了,这两种情况造成的影响大小是不一样的,可能把错的预测成对的代价要低,但把对的预测错了代价比较高,这时候就需要一个参数来体现出这种代价。

比较检验

        这 一部分内容之前数理统计的时候学过,总体感觉就是,会用就行,知道咋回事,

主要是没能力去推导和完全理解公式。

学习引用资料

Datawhale

https://github.com/datawhalechina/pumpkin-book

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值