西瓜书+南瓜书第一二章阅读笔记

最新推荐文章于 2024-10-15 01:20:33 发布

T_Larm

最新推荐文章于 2024-10-15 01:20:33 发布

阅读量77

点赞数

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/D_Larm/article/details/128720662

版权

西瓜书+南瓜书第一二章阅读笔记

文章目录

西瓜书+南瓜书第一二章阅读笔记
一、第一章绪论
二、第二章模型评估与选择
参考

一、第一章绪论

主要是介绍一些基本术语和机器学习的发展历程，此处不作详细叙述。

二、第二章模型评估与选择

2.1 评估方法

2.1.1 留出法（hold-out）

“留出法”(hold-out)直接将数据集D或分为两个互斥的集合，其中一个集合作为训练集S，另一个作为测试集T。在S上训练出模型后，用T来评估其测试误差，作为泛化误差的估计。

2.1.2 k折交叉验证法（k-fold cross validation）

“交叉验证法”(cross validation)先将数据集D划分为k个大小相似的互斥子集。每个子集Di都尽可能保持数据分布的一致性，即从D中通过分层采样得到。然后，每次用k-1个子集的并集作为训练集，余下的那个子集作为测试集；这样就可以获得k组训练/测试集。从而可进行k次训练和测试，最终返回的是这k个测试结果的均值。

2.2 性能度量（performance measure）

常用的性能度量有错误率、精度、查准率、查全率、F1、ROC和AUC。

2.2.1 错误率（error rate）

如果在m个样本中有a个样本分类错误，则错误率
$E=\frac{a}{m}$

2.2.2 精度（accuracy）

$精度 = 1 - 错误率$

2.2.3 查准率、查全率和F1

对于二分类问题，可将样例根据其真实类别与学习器预测类别的组合划分为真正例(true positive)、假正例(false positive)、正反例(true negative)、假反例(false negative)四种情况，令TP、FP、TN、FN分别表示其对应的样例数，则显然有TP+FP+TN+FN=样例总数。

查准率P：被学习器预测为正例的样例中有多大比例是真正例。
$P=\frac{TP}{TP+FP}$
查全率R：所有正例当中有多大比例被学习器预测为正例。
$R=\frac{TP}{TP+FN}$
F1：F1是基于查准率与查全率的调和平均(harmonic mean)定义的：
$\frac{1}{F_1}=\frac{1}{2}\times (\frac{1}{P}+\frac{1}{R})$

参考

周志华《机器学习》
谢文睿、秦州《机器学习公式详解》

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

T_Larm CSDN认证博客专家 CSDN认证企业博客

码龄6年

1: 原创

172万+: 周排名

108万+: 总排名

76: 访问

: 等级

10: 积分

1: 粉丝

0: 获赞

1: 评论

0: 收藏

私信

关注

热门文章

西瓜书+南瓜书第一二章阅读笔记 76

最新评论

西瓜书+南瓜书第一二章阅读笔记
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。