西瓜书学习笔记

最新推荐文章于 2024-06-20 02:12:52 发布

qq_46043123

最新推荐文章于 2024-06-20 02:12:52 发布

阅读量230

点赞数

文章标签：学习

本文链接：https://blog.csdn.net/qq_46043123/article/details/124829697

版权

引言：

在我年轻的时候我想改变世界，当我长大了，我发现我的能力不能改变世界，所有我决定改变我的国家，当我发现我的能力无法改变整个国家的时候，我想我的愿望是改变我的家庭，等到我年老的时候，我发现我的能力无法改变我的家庭，我就想我要改变我自己，等到我行将入土的时候，我发现我依然没有改变我自己，这时候我就想如果我一开始的愿望就改变自己，那么我自己改变了，同样我也就能改变我的家庭，有可能改变国家，甚至可以改变整个世界。

西瓜书目录

第一章：绪论

1.1 引言
1.2 基本术语
1.3 假设空间
1.4 归纳偏好
1.5 发展历程
1.6 应用现状
1.7 阅读材料
习题：
1.1 - 1.5
参考文献
休息一会儿

第二章：模型评估与选择

2.1 经验误差与过拟合
2.2 评估方法
2.3 性能度量
2.4 比较检验
2.5 偏差与方差
2.6 阅读材料
习题：
2.1 - 2.10
参考文献
休息一会儿

第一章心得

第一章绪论
主要以介绍机器学习为主，了解其中基本术语概念，课后习题完成即可，无须过分深入研究（研究下去的话，里面的水很深的）

基本术语总结

学习到的西瓜书中出现的所有概念的汇总（可跳过）
注：概念是惟一的。一个概念可以有多个同等概念的同义词。

概念	英文	释义	同义词
机器学习	machine leaning	一门学科，致力于研究如何通过计算的手段，利用经验来改善系统自身的性能
模型	model	从数据中学得的结果
学习算法	learning algorithm	在计算机上从数据中产生模型的算法
数据集	data set	机器学习所需要的数据
样本	instance	数据集中每条记录，是关于一个事件或对象的描述	示例
属性	attribute	反应事件或对象在某方面的表现或性质的事项	特征(feature)
属性值	attribute value	属性上的取值
属性空间	attribute space	属性张成的空间	样本空间(sample space)、输入空间
特征向量	feature vector	在属性空间中的每一个示例对应的点所对应的坐标向量
维数	dimensionality	每个示例含有的属性个数，在属性空间中可以理解为属性空间的维数
训练	training	从数据中学得模型的过程	学习(leanring)
训练数据	training data	训练过程中使用的数据
训练样本	training sample	训练数据中每一个样本
训练集	training set	训练样本组成的集合
验证集	validation set	验证样本组成的集合
假设	hypothesis	学得模型对应了关于数据的某种潜在的规律
真相	ground-truth	实际存在的规律/潜在规律自身
学习器	learner	学习的算法在给定数据和参数空间上的实例化
样例	example	拥有了标记信息的示例
标记	label	一个样本所对应的结果信息
标记空间	label space	所有标记的集合	输出空间
预测	prediction	对未知结果的一次判断
分类	classification	预测模型的结果是离散值的学习任务
回归	regression	预测模型的结果是连续值的学习任务
二分类	binary classification	分类任务中只涉及两个类别的任务
正类	positive class	二分类任务中其中一个类别
反类	negative class	二分类任务中另一个类型
多分类	multi-class classification	分类任务中涉及到多个类别的任务
测试	testing	学得模型后，使用期进行预测的过程
测试样本	testing sample	测试过程中被预测的样本
聚类	clustering	将训练集中的数据分成若干组
簇	cluster	聚类中分成的每一个组
监督学习	supervised learning	分类和回归属于该学习
无监督学习	unsupervised learning	聚类属于该学习
泛化	generalization	学得模型适用于新样本的能力
分布	distribution
独立同分布	independent and identically distributed, i.i.d
特化	specialization	从一般到特殊的过程
归纳	induction	从特殊到一般的泛化过程，即从具体的事实归结出一般性规律
演绎	deduction	从一般到特殊的特化过程，即从基础原理推演出具体状况
归纳学习	inductive learning	从样例中学习是一个归纳的过程，也称为归纳学习
概念	concept
版本空间	version space
归纳偏好	inductive bias	机器学习算法在学习过程中对某种类型假设的偏好
奥卡姆剃刀	Occam’s razor	自然科学中一种常用的基本原则，即若多个假设与观察一致，则选最简单的那个
没有免费的午餐定理（NFL定理）	No Free Lunch Theorem	对于所有问题出现的机会相同或所有问题同等重要的前提下，学习算法的期望性能相同

第二章心得

第二章模型评估与选择
本章主要讲述4个点，训练集和测试集的划分、单个模型的性能度量评估、多个模型的比较检验、模型泛化性能的解释。个人理解在实际情况中，前两点由乙方完成，第三点由验收方完成。个人对于书中前两点理解比较清晰，后面两点的理解不足，故并未写下后两点的相关数据，等多看几遍理解后再写。

基本术语总结

概念	英文	释义	同义词
错误率	error rate	分类错误的样本数占样本总数的比例
精度	accuracy	分类正确的样本数占样本总数的比例
误差	error	学习器的实际预测输出与样本的真实输出之间的差异
训练误差	training error	学习器在训练集上的误差	经验误差(empirical error)
测试误差	testing error	学习器在测试集上的误差
泛化误差	generalization error	学习器在新样本/测试集上的误差
过拟合	overfitting	学习器把训练样本自身的一些特点当成所有潜在样本都有的一般性质
欠拟合	underfitting	对训练样本的一般性质尚未学好
性能度量	performance measure	衡量模型泛化能力的评价标准

常用公式或常用方法

a、精度 = 1 - 错误率
b、测试集中，测试误差作为泛化误差的近似值
c、测试集尽量与训练集互斥，即测试样本尽量不在训练集中出现、未在训练过程中使用

一个数据集生成训练集和测试集的方法

当只有一个数据集D时，如何产生训练集S和测试集T
1、留出法 hold-out
直接将数据集D划分为两个互斥的集合，一个作为训练集S，另一个作为测试集T。使用留出法时，一般要采用若干次随机划分，每次产生一个训练集一个测试集用于实验评估，对多次的评估结果进行平均，得到最终的结果。
注：数据集D划分成两个数据集时，需要保证数据分布的一致性，采样时可使用分层采样的方法，即按照数据的结构以一定比例划分成两个数据集，一定比例一般取2/3~4/5的样本用于训练。
2、交叉验证法 cross validation / k折交叉验证 k-fold cross validation
将数据集D划分为k个大小相似的互斥子集，进行k次训练和测试，每次训练选择一个作为测试集，其他的k-1个子集作为训练集，最终结果返回的是k次测试结果的均值。
特别的，当子集数量k=样本数量m时，交叉验证法又称为留一法。此时的模型与用数据集D训练出来的模型很相似。
3、自助法
设数据集D中有m个样本，对数据集D中进行m次采样（允许采样相同的数据），生成新的数据集D’作为训练集，将存在于D中但不存在于D’中的样本作为测试集。自助法在数据集较小、难以有效划分训练集和测试集时很有用，但该方法会改变数据集的分布，引入估计偏差。
**注：**逻辑上始终不被采用样本的概率为(1-1/m)^m，取极限值为1/e≈0.368，即通过自助采样，初始数据集中有36.8%的样本可作为测试集。