西瓜书+南瓜书第1-2章

最新推荐文章于 2023-09-18 23:39:05 发布

phac123

最新推荐文章于 2023-09-18 23:39:05 发布

阅读量520

点赞数

分类专栏：西瓜书

本文链接：https://blog.csdn.net/weixin_42596275/article/details/119709960

版权

西瓜书专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1. 西瓜第一章

1.1 基本术语

在这里插入图片描述

1.2 课后习题

在这里插入图片描述
感觉自己好像没咋做对，也没做完，还要继续思考一下

2. 西瓜书第二章

2.1 基本术语

在这里插入图片描述

2.2 评估方法

2.2.1 留出法

在这里插入图片描述

2.2.2 交叉验证法

在这里插入图片描述

2.2.3 自助法

每次从数据集D中抽取一个数据，假设抽取m次，抽取的m次得到的数据形成了数据集A；剩下的数据大概有0.368形成数据集B。
缺点：自助法没有分层抽样，改变了数据分布，会引入估计偏差。

2.3 性能估计

2.3.1 查准率和查全率

查准率：P
p = 预测为正且预测正确的 /（预测为正的全部）
查全率：R
R = 预测为正且预测正确的 / （原始数据集中正样本数量）

2.4 课后习题

3. 南瓜书第一章

3.1 公式1.1理解

目的：计算出除了训练集以外的样本在学习器
在这里插入图片描述
的误差。(学习器下面用A表示)
计算方法：

sum = 0
for(i = h) {     //h是学习器产生的假设，遍历完所有的假设
	for(j = f(x)) {    //遍历完所有的x,x属于除了训练集数据以外的数据
		sum += (h(x) != f(x) ? p(x) : 0) * p(h|X, A); //p(x)
	}
}

h是学习器A通过样本X产生的假设；值得注意的是h是有很多种可能的。
所以 sigma P(h | X, εa) = 1

3.2 公式1.2理解

理解：公式一只考虑一个目标函数，而公式二则是考虑很多很多个目标函数；（想要说明“没有免费的午餐”这个道理）
公式推到中间需要理解的有两个地方：

sigma符号想要交换顺序，前提是其中的变量相互独立
由于假设f是均匀分布的，并且是二分类问题，所有不管h是啥都会有1/2数量的目标函数值与h函数值相等。

最后，发现了“没有免费午餐”定理——No Free Lunch Theorem.

4. 南瓜书第二章

4.1公式2.20理解

理解这个公式，其实是想让我们知道什么是AUC，只要我们知道ROC曲线是如何得到了，AUC自然就知道了；
ROC曲线绘制的方式：首先以样本的预测值为关键字从大到小进行排序；坐标轴的x轴是假正例率，y轴是真正例率；画第一个点以1为阀值，第二点以排序的第一个样本的预测值为阈值；遇到正样本点就往上点一个点，遇到负样本点就往右画一个点(这里只是经验)；严谨画法需要依照公式。（同时一个正，一个负，就在右上方画一个）
在这里插入图片描述

4.2 公式2.21理解

理解方法一：可以按照南瓜书上的进行理解
理解方法二：我发现不用化简也可以理解；首先还是需要把1/2提取出来；然后可以理解为单位距离为1，最后括号外边的1/m+ 和 1/m-就是对单位距离的修正；（本质上还是梯形的面积计算方式）

4.3 公式2.27理解(待补)

忘记了置信区间

4.4 公式2.41理解(待补)

phac123

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
西瓜书+南瓜书第1-2章

西瓜书前两章第一章1.1 基本术语1.2 课后习题第二章2.1 基本术语2.2 评估方法2.2.1 留出法2.2.2 交叉验证法第一章1.1 基本术语1.2 课后习题第二章2.1 基本术语2.2 评估方法2.2.1 留出法2.2.2 交叉验证法...
复制链接

扫一扫