DataWhale-西瓜书Task01

西瓜书第一章
基本术语:

  • 模型(model)
  • 学习算法(learning algorithm)
  • 样本(sample):一条关于西瓜的描述记录,例如(色泽=乌黑;根蒂=稍倦;敲声=沉闷)
  • D={X1,X2,…,Xm}表示包含m个样本的数据集
  • Xi={Xi1,Xi2,…,Xid},其中Xij是Xi在第j个属性上的取值,d称为样本的“维数(dimensionality)”
  • 标记(lable):指样本结果这一信息,比如“好瓜”、“坏瓜”
  • 样例(example):指拥有标记信息后的样本
  • 回归(regression):若欲预测的是连续值,此类的学习任务称为回归任务,例如西瓜的成熟度:0.95、0.70、0.37
  • 分类(classification):若欲预测的是离散值,此类的学习任务称为分类任务,例如“好瓜”、“坏瓜”
  • 二分类任务(binary classification):一个类是正类(positive class),另一个类是反类(negative class)
  • 测试(testing):利用模型对样本进行预测的过程,被预测的样本称为”测试样本“
  • 聚类(clustering): 将数据集分为若干组,每组就称为一个簇
  • 监督学习(supervised learning)和无监督学习(unsupervised learning):根据训练数据是否有标记
  • 泛化(generalization)能力:模型适用于新样本的能力
  • 独立同分布
  • 归纳(induction)和演绎(deduction)
  • 版本空间(version space):与训练集一致的假设集合

第二章:模型评估与选择

  • 错误率(error rate):E=a/m
  • 精度(accuracy):精度=1-错误率
  • 误差(error):
  • 训练误差(training error):
  • 泛化误差(generalization error):
  • 过拟合(overfitting):将样本本身的一些特点当作了所有潜在样本都会具有的一般性质
  • 欠拟合(underfitting):对训练样本的一般性质尚未学习好
  • 采样(sampling):
  • 分层采样(stratified sampling):保留类别比例的采样方式
  • 评估方法:留出法、交叉验证法、自助法、
  • 验证集(validation set):用于评估测试的数据集
  • 查准率(precision):挑出的西瓜中有多少比例是好瓜
  • 查全率(recall):所有的好瓜中有多少比例被挑了出来
  • F1
  • BEP(平衡点):
  • 统计假设检验:
  • McNemar检验:
  • Friedman检验和nemenyi后续检验
  • 偏差-方差分解(bias-variance decomposition):解释学习算法泛化性能的一种重要工具
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值