西瓜书+南瓜书第1-2章

1. 西瓜第一章

1.1 基本术语

在这里插入图片描述

1.2 课后习题

在这里插入图片描述
感觉自己好像没咋做对,也没做完,还要继续思考一下

2. 西瓜书第二章

2.1 基本术语

在这里插入图片描述

2.2 评估方法

2.2.1 留出法

在这里插入图片描述

2.2.2 交叉验证法

在这里插入图片描述

2.2.3 自助法

每次从数据集D中抽取一个数据,假设抽取m次,抽取的m次得到的数据形成了数据集A;剩下的数据大概有0.368形成数据集B。
缺点:自助法没有分层抽样,改变了数据分布,会引入估计偏差。

2.3 性能估计

2.3.1 查准率和查全率

查准率:P
p = 预测为正且预测正确的 /(预测为正的全部)
查全率:R
R = 预测为正且预测正确的 / (原始数据集中正样本数量)

2.4 课后习题

3. 南瓜书第一章

3.1 公式1.1理解

目的:计算出除了训练集以外的样本在学习器
在这里插入图片描述
的误差。(学习器下面用A表示)
计算方法:

sum = 0
for(i = h) {     //h是学习器产生的假设,遍历完所有的假设
	for(j = f(x)) {    //遍历完所有的x,x属于除了训练集数据以外的数据
		sum += (h(x) != f(x) ? p(x) : 0) * p(h|X, A); //p(x)
	}
}

h是学习器A通过样本X产生的假设;值得注意的是h是有很多种可能的。
所以 sigma P(h | X, εa) = 1

3.2 公式1.2理解

理解:公式一只考虑一个目标函数,而公式二则是考虑很多很多个目标函数;(想要说明“没有免费的午餐”这个道理)
公式推到中间需要理解的有两个地方:

  1. sigma符号想要交换顺序,前提是其中的变量相互独立
  2. 由于假设f是均匀分布的,并且是二分类问题,所有不管h是啥都会有1/2数量的目标函数值与h函数值相等。

最后,发现了“没有免费午餐”定理——No Free Lunch Theorem.

4. 南瓜书第二章

4.1公式2.20理解

理解这个公式,其实是想让我们知道什么是AUC,只要我们知道ROC曲线是如何得到了,AUC自然就知道了;
ROC曲线绘制的方式:首先以样本的预测值为关键字从大到小进行排序;坐标轴的x轴是假正例率,y轴是真正例率;画第一个点以1为阀值,第二点以排序的第一个样本的预测值为阈值;遇到正样本点就往上点一个点,遇到负样本点就往右画一个点(这里只是经验);严谨画法需要依照公式。(同时一个正,一个负,就在右上方画一个)
在这里插入图片描述

4.2 公式2.21理解

理解方法一:可以按照南瓜书上的进行理解
理解方法二:我发现不用化简也可以理解;首先还是需要把1/2提取出来;然后可以理解为单位距离为1,最后括号外边的1/m+ 和 1/m-就是对单位距离的修正;(本质上还是梯形的面积计算方式)

4.3 公式2.27理解(待补)

忘记了置信区间

4.4 公式2.41理解(待补)

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值