DataWhale吃瓜教程-Task1学习笔记(绪论,模型评估与选择)

CH1-绪论

1.1 引言

机器学习:致力于研究如何通过计算的手段,利用经验来改善系统的性能。
经验:数据
ML研究内容:从数据中产生”模型“算法,即’学习算法‘,再把数据提供给机器之后,就能产生模型,面对新情况时提供相应的判断。
类似于教会一个孩子学会举一反三的能力,这里换成了计算机

1.2 基本术语

如下面思维导图所示:
在这里插入图片描述

1.3 假设空间

归纳 induction:从特殊到一般的泛化,从具体事实归纳出一般性规律,狭义归纳学习称为概念学习。
演绎 deduction:从一般到特殊的特化,从基础原理推演出具体状况。
学习过程:在所有的假设的示例空间搜索,与训练集匹配的假设。
版本空间:一个与训练集一致的假设空间

1.4 归纳偏好

归纳偏好:权重
具体后续填坑!

1.5 发展历程

推理期
知识期
基于神经网络的连接主义:感知机
基于逻辑表示的符号主义:结构学习系统
从样例中学习:决策树
归纳逻辑设计
连接主义:黑箱,试错性,调参=炼丹
统计学习;SVM,核方法

CH2 模型评估与选择

2.1 经验误差与过拟合

训练误差 training error:训练集误差
泛化误差 generalization error:新样本
过拟合 overfitting:把训练样本特点当做所有潜在样本性质,过度提取特征,泛化能力下降。学习能力过于强大,无法避免,只能缓解
欠拟合 underfitting:性质没学好。学习能力底下,易克服。
模型选择:泛化误差小的
中庸,多了不好,少了也不好

2.2 评估方法

要求:训练集尽量与测试集互斥。

1 留出法 hold-out

方式:直接将数据集划分两个互斥的集合
注意
a、测试、训练集保持数据分布一致性,分层采样
b、单次使用不可靠,多次使用求平均值
c、2/3~4/5用于训练,剩下用于测试

2 交叉验证法 cross validation

方式:将数据集划分为k个大小相似的互斥子集,用k-1个训练,1个测试,进行k次训练测试求均值。
注意
a、保持数据分布一致性,分层采样
b、k折交叉验证,k一般取10,又叫10次10折交叉验证
c、留一法:LOO
d、一般适用于小样本

3 自助法 bootstrapping

方式:从m个样本的数据集D中有放回的取m次数据,将取的数据拷贝到新数据集D1中。
注意
a、自助采样,D中约有1/3的数据没被采到D1中
b、在数据集小,难以有效划分时有用
c、产生的数据集改变了数据集的分布,引入估计偏差

4 性能度量 performance measure-衡量泛化能力

回归任务:常用均方误差 mean squared error
分类任务:常用错误率和精度
查准率 precision:P=TP/(TP+FP)
查全率 recall:R = TP/(TP+FN)
P-R曲线:包住就是好,平衡点BEP,
F1度量:调和平均
F1一般形式:加权调和平均

5 ROC与AUC

后续填坑!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值