概览西瓜书和南瓜书第1、2章

第1章 绪论

1.1 引言

        机器学习主要研究从数据中产生模型的算法,即学习算法。

1.2 基本术语

数据集数据记录的集合
示例或样本每条记录是关于一个事件或对象的描述
属性或特征

反映事件或对象在某方面的表现或性质的事项

属性值属性上的取值
属性空间属性张成的空间,又称样本空间或输入空间
特征向量一个示例,空间中的每个点对应一个坐标向量
学习或训练 从数据中学得模型的过程
训练数据训练过程中使用的数据
训练样本训练过程中使用的样本
训练集训练样本组成的集合
假设学得模型对应了关于数据的某种潜在的规律
真相或真实潜在规律自身
学习器模型,可看作学习算法在给定数据和参数空间上的实例化
标记训练样本的结果信息
样例拥有了标记信息的示例
标记空间或输出空间所有标记的集合
分类模型预测的是离散值
回归模型预测的是连续值
测试使用学得模型进行预测的过程
测试样本被预测的样本
监督学习训练数据拥有标记信息,例如分类、回归
无监督学习训练数据没有标记信息,例如聚类
泛化能力学得模型适用于新样本的能力

1.3  假设空间

        学习过程可看作一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”的假设,即能够将训练集中的瓜判断正确的假设。假设的表示一旦确定,假设空间及其规模大小就确定了。

1.4  归纳偏好

        机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”,或简称为偏好。

第2章  模型评估与选择

2.1  经验误差与过拟合

错误率分类错误的样本数占样本总数的比例
精度1-错误率
误差学习器的实际预测输出与样本的真实输出之间的差异
训练误差或经验误差学习器在训练集上的误差
泛化误差在新样本上的误差
过拟合亦称“过配”,把训练样本自身的一些特点,当作了所有潜在样本都会具有的一般性质
欠拟合亦称“欠配”,指对训练样本的一般性质尚未学好
模型选择该选用哪一个学习算法,使用哪一种参数配置

2.2  评估方法

 2.3  性能度量

性能度量衡量模型泛化能力的评价标准
错误率分类错误的样本数占样本总数的比例
精度分类正确的样本数占样本总数的比例
查准率亦称“准确率”,例如信息检索中,检索出的信息中有多少比例是用户感兴趣的
查全率亦称“召回率”,例如用户感兴趣的信息中有多少被检索出来了
F1表达出对查准率/查全率的不同偏好
P-R曲线以查准率为纵轴、查全率为横轴作图,得到查准率-查全率曲线

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值