DataWhale机器学习组队学习学习笔记

最新推荐文章于 2024-11-05 08:17:16 发布

梓薮

最新推荐文章于 2024-11-05 08:17:16 发布

阅读量225

点赞数

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_56000780/article/details/132813209

版权

西瓜书第1－2章学习要点汇总

chapter1

基本术语（直选了重要的）

数据集
示例、样本：示例和样本是同义词（instance &sample）关于一个事件或者对象的描述
样例与示例的区别：样例包含标签（书中称为标记）
属性、特征：反映时间或者对象在某方面的表现或性质的事项，如“色泽”
属性值：属性的取值，如“青绿”
属性空间、样本空间、输入空间：属性张成的空间

把属性看做向量，用向量张成来类比，实际上一个示例也称为一个“特征向量”

学得模型对应了关于数据的某种潜在规律，称为假设

所以很多时候把这种映射会标记为h(·)符号

所有标记的集合称为标记空间或者“输出空间”
任务可以分为分类和回归，差别在于预测的是连续值还是离散值
最终考察模型的是泛化能力
假设空间的计算

属性空间N，属性N1可以取n11~n1n,则假设空间（n11+1(n12+1)(n1n+1)...（nnn+1）+1最后的1是表示这种类别不存在（世界上没有好瓜）

归纳偏好与定理

特征选择和最后拟合的曲线形状有关，另一个例子上表示好瓜的属性间的重要性不同，也表示了属性符合的严苛程度
奥卡姆剃刀

如无必要勿增实体，简单比复杂更有效，例子：日心说圆周模型和需要十六个圆形来拟合的模型，前者更好

没有免费的午餐

两个模型在一个问题下A优于B，则一定能够存在有其他问题，使得B优于A

聪明和笨拙的学习算法，期望值相同

结论：必须要结合实际问题选择算法，就算是把整本书的所有算法都学完，不灵活变通也不会得到好模型。

chapter2

欠拟合与过拟合

（图片一目了然）

评估方法

留出法

特点：数据分布有一致性，可以多次重复划分，测试集不能太大，也不能太小，可以使用分层采样

交叉验证

划出k个互斥子集，然后每次取一个做测试集其他作为训练集，最后返回平均误差

特殊：留一法，这种方法会收到极端数据影响，但是因为训练集很大，实际与期望会很相似

自助法

从数据集D采样出D'，大概会有36.8%的数据不会被选择到，这种方法改变了原有数据的分布

错误率与精度测量

有几个概念可能会忘

查准率：TP/真正的P
查全率TP/查到的P
两者相互矛盾，不能同时很高，大家引入了P-R曲线，用曲线面积或者是P=R（平衡点BEP）这一点的值来进行比较
F1度量

宏查准率、查全率、宏F1与微xx的区别和使用

他们是当有很多张混淆矩阵的时候来评估模型的，宏xx是先算后均，微xx是先均后算

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

博客等级

码龄4年

1
原创

0
点赞

0
收藏

1
粉丝

关注

私信

热门文章

DataWhale机器学习组队学习学习笔记 225

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。