西瓜书学习笔记——task01

西瓜书学习笔记

第一章

基本术语

  • 数据集:所有瓜
  • 样本/示例:一个瓜的描述(属性描述)
  • 属性:瓜皮颜色
  • 属性值:青绿
  • 属性空间" (attribute space) /“样本空间” (samp1e space) /“输入
    空间:属性张成的空间(比如"色泽” “根蒂” "敲声"作为三个坐标轴,则它们张成
    一个用于描述西瓜的三维空间)
  • 特征向量:在属性空间的一个点,对应一个示例
  • 维数:属性数量
  • 样例:有标记“好瓜”的瓜
  • 真相/真实:学得的模型对应的关于数据的规律
  • 标记:关于示例结果的信息 如:“好瓜!”
  • 分类:预测的信息是离散值
  • 回归:预测的值是连续值
  • 聚类:将西瓜分成若干”簇“,每簇对应的划分不是人为划分的,是我们事先不知道的
  • 监督学习:训练数据有标记,如分类和回归
  • 无监督学习:训练数据无标记,如聚类

第二章

基本术语

  • 错误率:分类错误的样本数占样本总数的比例
  • 精度:1-错误率
  • 误差:学习器的实际预测输出与样本的真实输出之间的差异
  • 过拟合:泛化能力下降,把训练样本自身的一些特点当作了所有潜在样本都
    会具有的一般性质,在训练样本上表现很好,但是对于新样本表现欠佳
  • 欠拟合·:指对训练样本的一般性质尚未学好。表现都很次
  • 测试集:
  • 测试误差:作为泛化误差的近似,用于模型选择

评估方法

  1. 留出法:将整个数据集D划分为训练集和测试集,
  • 常见做法是将大约 2/3~ 4/5样本用于训练,剩余样本用测试。可平衡结果的保真性和稳定性。
  • 对于样本的划分,一般要采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果
  • 分层采样:保留类别比例的采样方式。保证测试集和训练集的好瓜坏瓜比例基本一致
  1. 交叉验证
  • 将整个数据集分成k个子集,每次选1个子集作为测试集,其他k-1个作为训练集。选k次不同的测试集,进行k次训练和测试(又叫k折交叉验证)
  • 另:子集通过分层采样得到,保持数据分布的一致性
  • 对于子集的划分也使用:随机划分重复n次取均值
  • 留一法(Leave-One-Out,LOO):若数据集中包含k个样本,划分为k个子集,则每个子集只有一个样本。结果比较准确,的那数据集比较大时,开销过大。
    10折交叉验证示意图
  1. 自助法
  • 使用自助采样产生数据集D‘。也就是训练集和测试集都是m个样本,但是由于训练集的采样是有放回采样,所以测试集中仍有数据总量约 1/3 的、没在训练集中出现的样本用于测试。
  • 自助采样:又称可重复采样或有放回采样。每次随机从中挑选一个样本,将其拷贝放入 D’ 然后再将该样本放回初始数据集 中,使得该样本在下次采样时仍有可能被采到;这个过程重复执行m次后,我们就得到了包含m个样本的数据集 D’
  • 这样的测试结果又叫包外估计(out-of-bag-estimate).
  1. 调参
    常见做法:对每个参数选定一个范围和变化步长

性能度量

  1. 均方误差
    均方误差公式

  2. 错误率和精度
    错误率:
    错误率公式
    精度:=1-错误率
    精度公式

  3. 查准率,查全率
    分类结果混淆矩阵:对于二分类问题,可将样例根据其真实类别与学习器预测类别的组合划
    分为TP,FN,FP,TN
    分类结果混淆矩阵
    查准率P和查全率R
    查准率:选出的好瓜中有多少是真的好瓜的比例
    查全率:真正的好瓜中有多少被选出为好瓜的比例。
    查准率P和查全率R
    查准率-查全率曲线(P-R曲线)
    P-R图

比较学习器的好坏:

  • 若一个学习器的 P-R 曲线被另一个学习器的曲线完全"包住,则可断言
    后者的性能优于前者,
  • 如果两个学习器 P-R 曲线发生了交叉,则是比较 P-R 曲线下面积的大小

用来综合考虑查准 查全率的性能度量

  • 平衡点(Break-Event Point,BEP),查全率=查准率的点

  • F1度量,是是基于查准率与查全率的调和平均(harinonic mean)定义的:

  • f1根据调和平均的公式
    F1公式

  • Fβ:F1的一般形式,可以对查准率和查全率有偏好
    Fβ公式
    ß>0 度量了查全率对查准率的相对重要性 ß = 1 时退化为标准的 F1; ß>1 时查全率有更大影响 ß < 1时查准率有更大影响.

  • “宏查准率” (macro-P) “宏查全率” (macro-R) ,以及相应的"宏F1"
    先在各混淆矩阵上分别计算出查准率和查全率,记为 (Pl, R2) , 再计算平均值
    宏查准率" (macro-P) "宏查全率" (macro-R) ,以及相应的"宏F1

  • “微查准率”(micro-P) “徽查全率” (micro-R) 和"微F1" (micro-F1)
    可先将各泪淆矩阵的对应元素进行平均,得到 TP FP TN FN平均值,再基于这些平均值计算出
    微查准率徽查全率" (micro-R) 和"微F1" (micro-F1)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值