西瓜书第1-2章学习要点汇总
chapter1
基本术语(直选了重要的)
- 数据集
- 示例、样本:示例和样本是同义词(instance &sample)关于一个事件或者对象的描述
- 样例与示例的区别:样例包含标签(书中称为标记)
- 属性、特征:反映时间或者对象在某方面的表现或性质的事项,如“色泽”
- 属性值:属性的取值,如“青绿”
- 属性空间、样本空间、输入空间:属性张成的空间
把属性看做向量,用向量张成来类比,实际上一个示例也称为一个“特征向量”
- 学得模型对应了关于数据的某种潜在规律,称为假设
所以很多时候把这种映射会标记为h(·)符号
- 所有标记的集合称为标记空间或者“输出空间”
- 任务可以分为分类和回归,差别在于预测的是连续值还是离散值
- 最终考察模型的是泛化能力
- 假设空间的计算
属性空间N,属性N1可以取n11~n1n,则假设空间(n11+1(n12+1)(n1n+1)...(nnn+1)+1最后的1是表示这种类别不存在(世界上没有好瓜)
归纳偏好与定理
- 特征选择和最后拟合的曲线形状有关,另一个例子上表示好瓜的属性间的重要性不同,也表示了属性符合的严苛程度
- 奥卡姆剃刀
如无必要勿增实体,简单比复杂更有效,例子:日心说圆周模型和需要十六个圆形来拟合的模型,前者更好
- 没有免费的午餐
两个模型在一个问题下A优于B,则一定能够存在有其他问题,使得B优于A
聪明和笨拙的学习算法,期望值相同
结论:必须要结合实际问题选择算法,就算是把整本书的所有算法都学完,不灵活变通也不会得到好模型。
chapter2
欠拟合与过拟合
(图片一目了然)
评估方法
- 留出法
特点:数据分布有一致性,可以多次重复划分,测试集不能太大,也不能太小 ,可以使用分层采样
- 交叉验证
划出k个互斥子集,然后每次取一个做测试集其他作为训练集,最后返回平均误差
特殊:留一法,这种方法会收到极端数据影响,但是因为训练集很大,实际与期望会很相似
- 自助法
从数据集D采样出D',大概会有36.8%的数据不会被选择到,这种方法改变了原有数据的分布
错误率与精度测量
有几个概念可能会忘
- 查准率:TP/真正的P
- 查全率TP/查到的P
- 两者相互矛盾,不能同时很高,大家引入了P-R曲线,用曲线面积或者是P=R(平衡点BEP)这一点的值来进行比较
- F1度量
- 宏查准率、查全率、宏F1与微xx的区别和使用
他们是当有很多张混淆矩阵的时候来评估模型的,宏xx是先算后均,微xx是先均后算