西瓜书&&南瓜书前两章
1. 西瓜第一章
1.1 基本术语
1.2 课后习题
感觉自己好像没咋做对,也没做完,还要继续思考一下
2. 西瓜书第二章
2.1 基本术语
2.2 评估方法
2.2.1 留出法
2.2.2 交叉验证法
2.2.3 自助法
每次从数据集D中抽取一个数据,假设抽取m次,抽取的m次得到的数据形成了数据集A;剩下的数据大概有0.368形成数据集B。
缺点:自助法没有分层抽样,改变了数据分布,会引入估计偏差。
2.3 性能估计
2.3.1 查准率和查全率
查准率:P
p = 预测为正且预测正确的 /(预测为正的全部)
查全率:R
R = 预测为正且预测正确的 / (原始数据集中正样本数量)
2.4 课后习题
3. 南瓜书第一章
3.1 公式1.1理解
目的:计算出除了训练集以外的样本在学习器
的误差。(学习器下面用A表示)
计算方法:
sum = 0
for(i = h) { //h是学习器产生的假设,遍历完所有的假设
for(j = f(x)) { //遍历完所有的x,x属于除了训练集数据以外的数据
sum += (h(x) != f(x) ? p(x) : 0) * p(h|X, A); //p(x)
}
}
h是学习器A通过样本X产生的假设;值得注意的是h是有很多种可能的。
所以 sigma P(h | X, εa) = 1
3.2 公式1.2理解
理解:公式一只考虑一个目标函数,而公式二则是考虑很多很多个目标函数;(想要说明“没有免费的午餐”这个道理)
公式推到中间需要理解的有两个地方:
- sigma符号想要交换顺序,前提是其中的变量相互独立
- 由于假设f是均匀分布的,并且是二分类问题,所有不管h是啥都会有1/2数量的目标函数值与h函数值相等。
最后,发现了“没有免费午餐”定理——No Free Lunch Theorem.
4. 南瓜书第二章
4.1公式2.20理解
理解这个公式,其实是想让我们知道什么是AUC,只要我们知道ROC曲线是如何得到了,AUC自然就知道了;
ROC曲线绘制的方式:首先以样本的预测值为关键字从大到小进行排序;坐标轴的x轴是假正例率,y轴是真正例率;画第一个点以1为阀值,第二点以排序的第一个样本的预测值为阈值;遇到正样本点就往上点一个点,遇到负样本点就往右画一个点(这里只是经验);严谨画法需要依照公式。(同时一个正,一个负,就在右上方画一个)
4.2 公式2.21理解
理解方法一:可以按照南瓜书上的进行理解
理解方法二:我发现不用化简也可以理解;首先还是需要把1/2提取出来;然后可以理解为单位距离为1,最后括号外边的1/m+ 和 1/m-就是对单位距离的修正;(本质上还是梯形的面积计算方式)
4.3 公式2.27理解(待补)
忘记了置信区间