DataWhale机器学习组队学习学习笔记

西瓜书第1-2章学习要点汇总

chapter1

基本术语(直选了重要的)

  • 数据集
  • 示例、样本:示例和样本是同义词(instance &sample)关于一个事件或者对象的描述
  • 样例与示例的区别:样例包含标签(书中称为标记)
  • 属性、特征:反映时间或者对象在某方面的表现或性质的事项,如“色泽”
  • 属性值:属性的取值,如“青绿”
  • 属性空间、样本空间、输入空间:属性张成的空间

把属性看做向量,用向量张成来类比,实际上一个示例也称为一个“特征向量”

  • 学得模型对应了关于数据的某种潜在规律,称为假设

所以很多时候把这种映射会标记为h(·)符号

  • 所有标记的集合称为标记空间或者“输出空间”
  • 任务可以分为分类和回归,差别在于预测的是连续值还是离散值
  • 最终考察模型的是泛化能力
  • 假设空间的计算

属性空间N,属性N1可以取n11~n1n,则假设空间(n11+1(n12+1)(n1n+1)...(nnn+1)+1最后的1是表示这种类别不存在(世界上没有好瓜)

归纳偏好与定理

  • 特征选择和最后拟合的曲线形状有关,另一个例子上表示好瓜的属性间的重要性不同,也表示了属性符合的严苛程度
  • 奥卡姆剃刀

如无必要勿增实体,简单比复杂更有效,例子:日心说圆周模型和需要十六个圆形来拟合的模型,前者更好

  • 没有免费的午餐

两个模型在一个问题下A优于B,则一定能够存在有其他问题,使得B优于A

聪明和笨拙的学习算法,期望值相同

结论:必须要结合实际问题选择算法,就算是把整本书的所有算法都学完,不灵活变通也不会得到好模型。

chapter2

欠拟合与过拟合

4135895aa30e4e82ac0158835a57d709.png

(图片一目了然) 

评估方法

  • 留出法

aff281f8f4194014b15a29721ff748fa.png

特点:数据分布有一致性,可以多次重复划分,测试集不能太大,也不能太小 ,可以使用分层采样

  • 交叉验证

划出k个互斥子集,然后每次取一个做测试集其他作为训练集,最后返回平均误差

特殊:留一法,这种方法会收到极端数据影响,但是因为训练集很大,实际与期望会很相似

  • 自助法

从数据集D采样出D',大概会有36.8%的数据不会被选择到,这种方法改变了原有数据的分布

错误率与精度测量

有几个概念可能会忘

  • 查准率:TP/真正的P
  • 查全率TP/查到的P
  • 两者相互矛盾,不能同时很高,大家引入了P-R曲线,用曲线面积或者是P=R(平衡点BEP)这一点的值来进行比较
  • F1度量

43a4a5a639f14279859729af6cfd93c9.png

  • 宏查准率、查全率、宏F1与微xx的区别和使用

他们是当有很多张混淆矩阵的时候来评估模型的,宏xx是先算后均,微xx是先均后算

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值