西瓜书学习笔记——task01

zhaoaxi

已于 2022-12-19 14:00:18 修改

阅读量97

点赞数

文章标签：学习 python

于 2022-12-19 13:58:50 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_53480978/article/details/128299114

版权

西瓜书学习笔记

第一章

基本术语

数据集：所有瓜
样本/示例：一个瓜的描述（属性描述）
属性：瓜皮颜色
属性值：青绿
属性空间" (attribute space) /“样本空间” (samp1e space) /“输入
空间：属性张成的空间（比如"色泽” “根蒂” "敲声"作为三个坐标轴，则它们张成
一个用于描述西瓜的三维空间）
特征向量：在属性空间的一个点，对应一个示例
维数：属性数量
样例：有标记“好瓜”的瓜
真相/真实：学得的模型对应的关于数据的规律
标记：关于示例结果的信息如：“好瓜！”
分类：预测的信息是离散值
回归：预测的值是连续值
聚类：将西瓜分成若干”簇“，每簇对应的划分不是人为划分的，是我们事先不知道的
监督学习：训练数据有标记，如分类和回归
无监督学习：训练数据无标记，如聚类

第二章

基本术语

错误率：分类错误的样本数占样本总数的比例
精度：1-错误率
误差：学习器的实际预测输出与样本的真实输出之间的差异
过拟合：泛化能力下降，把训练样本自身的一些特点当作了所有潜在样本都
会具有的一般性质，在训练样本上表现很好，但是对于新样本表现欠佳
欠拟合·：指对训练样本的一般性质尚未学好。表现都很次
测试集：
测试误差：作为泛化误差的近似，用于模型选择

评估方法

留出法：将整个数据集D划分为训练集和测试集，

常见做法是将大约 2/3~ 4/5样本用于训练，剩余样本用测试。可平衡结果的保真性和稳定性。
对于样本的划分，一般要采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果
分层采样：保留类别比例的采样方式。保证测试集和训练集的好瓜坏瓜比例基本一致

交叉验证：

将整个数据集分成k个子集，每次选1个子集作为测试集，其他k-1个作为训练集。选k次不同的测试集，进行k次训练和测试（又叫k折交叉验证）
另：子集通过分层采样得到，保持数据分布的一致性
对于子集的划分也使用：随机划分重复n次取均值
留一法（Leave-One-Out,LOO）：若数据集中包含k个样本，划分为k个子集，则每个子集只有一个样本。结果比较准确，的那数据集比较大时，开销过大。

自助法

使用自助采样产生数据集D‘。也就是训练集和测试集都是m个样本，但是由于训练集的采样是有放回采样，所以测试集中仍有数据总量约 1/3 的、没在训练集中出现的样本用于测试。
自助采样：又称可重复采样或有放回采样。每次随机从中挑选一个样本，将其拷贝放入 D’ 然后再将该样本放回初始数据集中，使得该样本在下次采样时仍有可能被采到;这个过程重复执行m次后，我们就得到了包含m个样本的数据集 D’
这样的测试结果又叫包外估计(out-of-bag-estimate).

调参
常见做法：对每个参数选定一个范围和变化步长

性能度量

均方误差
错误率和精度
错误率：

精度：=1-错误率
查准率，查全率
分类结果混淆矩阵：对于二分类问题，可将样例根据其真实类别与学习器预测类别的组合划
分为TP，FN，FP，TN

查准率P和查全率R
查准率：选出的好瓜中有多少是真的好瓜的比例
查全率：真正的好瓜中有多少被选出为好瓜的比例。

查准率-查全率曲线（P-R曲线）

比较学习器的好坏：

若一个学习器的 P-R 曲线被另一个学习器的曲线完全"包住，则可断言
后者的性能优于前者，
如果两个学习器 P-R 曲线发生了交叉，则是比较 P-R 曲线下面积的大小

用来综合考虑查准查全率的性能度量

平衡点（Break-Event Point，BEP），查全率=查准率的点
F1度量，是是基于查准率与查全率的调和平均(harinonic mean)定义的:
Fβ：F1的一般形式，可以对查准率和查全率有偏好

ß>0 度量了查全率对查准率的相对重要性 ß = 1 时退化为标准的 F1; ß>1 时查全率有更大影响 ß < 1时查准率有更大影响.
“宏查准率” (macro-P) “宏查全率” (macro-R) ，以及相应的"宏F1"
先在各混淆矩阵上分别计算出查准率和查全率，记为 (Pl， R2) ，再计算平均值
“微查准率”(micro-P) “徽查全率” (micro-R) 和"微F1" (micro-F1)
可先将各泪淆矩阵的对应元素进行平均，得到 TP FP TN FN平均值，再基于这些平均值计算出

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
西瓜书学习笔记——task01

西瓜书笔记第一二章，基本术语
复制链接

扫一扫

zhaoaxi CSDN认证博客专家 CSDN认证企业博客

码龄4年

13: 原创

132万+: 周排名

15万+: 总排名

1万+: 访问

: 等级

263: 积分

96: 粉丝

133: 获赞

7: 评论

154: 收藏

私信

关注

热门文章

最新评论

GitHub Copilot使用
CSDN-Ada助手: 恭喜您发布了第13篇博客“GitHub Copilot使用”！您的持续创作精神令人钦佩。建议您在下一篇博客中可以探讨一些GitHub Copilot的实际应用案例，或者分享一些使用心得体会，这样可以让读者更加深入了解这一工具的使用方法和效果。期待您更多精彩的创作！愿您在写作的路上不断进步，不忘初心，砥砺前行。
quant组队学习——task06
CSDN-Ada助手: 恭喜您完成了第12篇博客！看到您持续创作的努力，我真的非常欣慰。通过这篇标题为“quant组队学习——task06”的博客，我能感受到您对学习的热情和坚持不懈的精神。在下一步的创作中，我建议您可以尝试深入分析task06的内容，提供更多实例和案例以及个人观点的分享。相信这样的分享将为读者提供更多有价值的信息，并且能够更好地推动您自己的学习进步。谦虚的态度一直是学习的关键，期待您在未来的创作中继续保持并不断进步！
quant组队学习——task05 量化择时策略
CSDN-Ada助手: 恭喜你写了第11篇博客，标题为“quant组队学习——task05 量化择时策略”。看到你在量化领域的深入学习和分享，真的很令人钦佩。接下来，我建议你可以尝试分享一些具体的案例分析，或者结合实际操作经验，让读者更加直观地了解量化择时策略的具体应用。期待你的下一篇作品！加油！
quant组队学习——task03 股票数据获取
CSDN-Ada助手: 恭喜您第9篇博客的发布！标题“quant组队学习——task03 股票数据获取”听起来非常有趣，能够帮助读者们了解如何获取股票数据。您的持续创作展示了您对quant领域的热情和才能。接下来，我建议您可以考虑进一步探索股票数据的分析和应用，例如如何进行数据清洗和处理、如何构建模型来预测股票走势等。期待您在下一篇博客中的精彩分享！
quant组队学习——task02——前两节
CSDN-Ada助手: 恭喜你写了第7篇博客！看来你对quant组队学习的任务02有着很好的理解和总结。接下来，我建议你可以尝试深入分析前两节内容，挖掘更多的细节和实践经验，让读者能够更加深入地理解和应用这些知识。希望你能继续保持创作，加油！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。