机器学习(西瓜书)学习笔记

最新推荐文章于 2024-03-04 14:45:57 发布

DannyKX

最新推荐文章于 2024-03-04 14:45:57 发布

阅读量421

点赞数 1

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42386103/article/details/120735084

版权

西瓜书1+2章总结

第1章绪论
第2章模型评估与选择

第1章绪论

1.1 引言

数据=经验

1.2 基本术语

数据集(data set)
样本(sample)/示例(instance)
属性(attribute)/特征(feature)
属性值(attribute value)
属性空间(attribute space)
特征向量(feature vector):属性空间中的一个实例
学习(learning)/训练(training)：从数据中学得模型的过程
训练集(training set)
测试集(testing set)
模型(model)/学习器(learner)：从数据中学得的结果
泛化(generalization)能力：使得无监督学习的结果适用于没在训练集中出现的样本
独立同分布 iid(independent and identically distributed)：样本空间中全体样本服从一个未知分布(D)
机器学习：

1.3 假设空间

归纳(induction)：从特殊到一般的泛化(generalization)过程
演绎(deduction)：从基础原理推演出具体情况

第2章模型评估与选择

2.1 经验误差与过拟合

误差(error):模型（model）/学习器的实际预测输出与样本的真实输出之间的差异
拟合：包括过拟合(overfitting)与欠拟合(underfitting)

2.2 评估方法

数据处理：对原始数据集D进行适当处理，从中产生训练集(S)和测试集(T)
评估指标：使用测试集T(testing set)来测试学习器对新样本的判别能力，以测试误差(testing error)作为泛化误差的近似

2.2.1 留出法(hold-out)

思路：将数据集D划分成两个互斥的集合，其中一个集合作为训练集S，另一个集合作为测试集T。在S上训练出模型之后，用T来评估其测试误差，作为泛化误差的估计
样本采样方式：分层抽样(stratified sampling)—保留类别比例的采样方式
经验:常将样本的2/3~4/5用于训练，其余用于测试

2.2.2 交叉验证法(cross validation) /k折交叉验证(k-fold cross validation)

思路：例如分成1、2、3、4四部分，我们可以先以1、2、3为训练集，以4为测试集；然后以1、2、4为训练集，以3为测试集…
样本采样方式：分层抽样
经验:常取k=10(10折交叉验证)，也取k=5或20

2.2.3 自助法(bootstrapping)

思路：以自主采用法为基础，适用于数据集较小、难以有效划分训练/测试集时很有用；此外他也能从原始数据中产生多个不同的训练集，对集成学习很有帮助。…
样本采样方式：自助采样法(bootstrap sampling)

2.2.4 调参与最终模型

参数调节/调参(parameter tuning)，学习算法的参数需要设定，参数的细小差别可能会对产生的模型性能产生显著的变化。

2.3 性能度量

是对模型泛化能力的评价标准

2.3.1 错误率与精度

适用情况：常用于分类
定义：
----对于离散样例集D：
①错误率
②精度

----对于连续数据分布D：
①错误率

②精度

2.3.2 查准率P(precision)、查全率R(recall)与FI

适用情况：常用于信息检索，web检索
定义
1.查准率P

2.查全率R

3.平衡点BEP(Break-Even Point):
- 是查准率=查全率时的取值
- 综合考察查准率、查全率的性能度量
4.F1
- 在BEP上的优化指标

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
3
评论
机器学习(西瓜书)学习笔记

西瓜书1+2章总结第1章绪论1.1 引言1.2 基本术语1.3 假设空间第2章模型评估与选择2.1 经验误差与过拟合2.2 评估方法2.2.1 留出法(hold-out)2.2.2 交叉验证法(cross validation) /k折交叉验证(k-fold cross validation)2.2.3 自助法(bootstrapping)2.2.4 调参与最终模型2.3 性能度量2.3.1 错误率与精度2.3.2 查准率P(precision)、查全率R(recall)与FI第1章绪论1.1 引
复制链接

扫一扫

博客等级

码龄6年

5
原创

4
点赞

23
收藏

3
粉丝

关注

私信

热门文章

最新评论

机器学习(西瓜书)学习笔记
iml6yu: 能分享一下你的在线视频课堂吗？地址发给我一下吧
机器学习(西瓜书)学习笔记
DannyKX: 刚开始尽量速度过一遍书本，推荐学堂在线周志华老师的西瓜书视频教程。和这本书配套的
机器学习(西瓜书)学习笔记
iml6yu: 兄弟，你西瓜书学的怎么样了，我尝试了好几个月了，一直学不下去，总是被数学卡住

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。