概览西瓜书和南瓜书第1、2章

m0_54783477

已于 2022-06-14 22:20:58 修改

阅读量196

点赞数

分类专栏：西瓜书和南瓜书文章标签：机器学习

于 2022-06-14 22:08:52 首次发布

本文链接：https://blog.csdn.net/m0_54783477/article/details/125284929

版权

4 篇文章 0 订阅

订阅专栏

第1章绪论

1.1 引言

机器学习主要研究从数据中产生模型的算法，即学习算法。

1.2 基本术语

1.3 假设空间

学习过程可看作一个在所有假设组成的空间中进行搜索的过程，搜索目标是找到与训练集“匹配”的假设，即能够将训练集中的瓜判断正确的假设。假设的表示一旦确定，假设空间及其规模大小就确定了。

1.4 归纳偏好

机器学习算法在学习过程中对某种类型假设的偏好，称为“归纳偏好”，或简称为偏好。

第2章模型评估与选择

2.1 经验误差与过拟合

错误率	分类错误的样本数占样本总数的比例
精度	1-错误率
误差	学习器的实际预测输出与样本的真实输出之间的差异
训练误差或经验误差	学习器在训练集上的误差
泛化误差	在新样本上的误差
过拟合	亦称“过配”，把训练样本自身的一些特点，当作了所有潜在样本都会具有的一般性质
欠拟合	亦称“欠配”，指对训练样本的一般性质尚未学好
模型选择	该选用哪一个学习算法，使用哪一种参数配置

2.2 评估方法

2.3 性能度量

性能度量	衡量模型泛化能力的评价标准
错误率	分类错误的样本数占样本总数的比例
精度	分类正确的样本数占样本总数的比例
查准率	亦称“准确率”，例如信息检索中，检索出的信息中有多少比例是用户感兴趣的
查全率	亦称“召回率”，例如用户感兴趣的信息中有多少被检索出来了
F1	表达出对查准率/查全率的不同偏好
P-R曲线	以查准率为纵轴、查全率为横轴作图，得到查准率-查全率曲线