西瓜书学习笔记

引言:

在我年轻的时候我想改变世界,当我长大了,我发现我的能力不能改变世界,所有我决定改变我的国家,当我发现我的能力无法改变整个国家的时候,我想我的愿望是改变我的家庭,等到我年老的时候,我发现我的能力无法改变我的家庭,我就想我要改变我自己,等到我行将入土的时候,我发现我依然没有改变我自己,这时候我就想如果我一开始的愿望就改变自己,那么我自己改变了,同样我也就能改变我的家庭,有可能改变国家,甚至可以改变整个世界。

西瓜书目录

第一章:绪论

1.1 引言
1.2 基本术语
1.3 假设空间
1.4 归纳偏好
1.5 发展历程
1.6 应用现状
1.7 阅读材料
习题:
1.1 - 1.5
参考文献
休息一会儿

第二章:模型评估与选择

2.1 经验误差与过拟合
2.2 评估方法
2.3 性能度量
2.4 比较检验
2.5 偏差与方差
2.6 阅读材料
习题:
2.1 - 2.10
参考文献
休息一会儿

第一章 心得

第一章 绪论
主要以介绍机器学习为主,了解其中基本术语概念,课后习题完成即可,无须过分深入研究(研究下去的话,里面的水很深的)

基本术语总结

学习到的西瓜书中出现的所有概念的汇总(可跳过)
:概念是惟一的。一个概念可以有多个同等概念的同义词。

概念英文释义同义词
机器学习machine leaning一门学科,致力于研究如何通过计算的手段,利用经验来改善系统自身的性能
模型model从数据中学得的结果
学习算法learning algorithm在计算机上从数据中产生模型的算法
数据集data set机器学习所需要的数据
样本instance数据集中每条记录,是关于一个事件或对象的描述示例
属性attribute反应事件或对象在某方面的表现或性质的事项特征(feature)
属性值attribute value属性上的取值
属性空间attribute space属性张成的空间样本空间(sample space)、输入空间
特征向量feature vector在属性空间中的每一个示例对应的点所对应的坐标向量
维数dimensionality每个示例含有的属性个数,在属性空间中可以理解为属性空间的维数
训练training从数据中学得模型的过程学习(leanring)
训练数据training data训练过程中使用的数据
训练样本training sample训练数据中每一个样本
训练集training set训练样本组成的集合
验证集validation set验证样本组成的集合
假设hypothesis学得模型对应了关于数据的某种潜在的规律
真相ground-truth实际存在的规律/潜在规律自身
学习器learner学习的算法在给定数据和参数空间上的实例化
样例example拥有了标记信息的示例
标记label一个样本所对应的结果信息
标记空间label space所有标记的集合输出空间
预测prediction对未知结果的一次判断
分类classification预测模型的结果是离散值的学习任务
回归regression预测模型的结果是连续值的学习任务
二分类binary classification分类任务中只涉及两个类别的任务
正类positive class二分类任务中其中一个类别
反类negative class二分类任务中另一个类型
多分类multi-class classification分类任务中涉及到多个类别的任务
测试testing学得模型后,使用期进行预测的过程
测试样本testing sample测试过程中被预测的样本
聚类clustering将训练集中的数据分成若干组
cluster聚类中分成的每一个组
监督学习supervised learning分类和回归属于该学习
无监督学习unsupervised learning聚类属于该学习
泛化generalization学得模型适用于新样本的能力
分布distribution
独立同分布independent and identically distributed, i.i.d
特化specialization从一般到特殊的过程
归纳induction从特殊到一般的泛化过程,即从具体的事实归结出一般性规律
演绎deduction从一般到特殊的特化过程,即从基础原理推演出具体状况
归纳学习inductive learning从样例中学习是一个归纳的过程,也称为归纳学习
概念concept
版本空间version space
归纳偏好inductive bias机器学习算法在学习过程中对某种类型假设的偏好
奥卡姆剃刀Occam’s razor自然科学中一种常用的基本原则,即若多个假设与观察一致,则选最简单的那个
没有免费的午餐定理(NFL定理)No Free Lunch Theorem对于所有问题出现的机会相同或所有问题同等重要的前提下,学习算法的期望性能相同

第二章 心得

第二章 模型评估与选择
本章主要讲述4个点,训练集和测试集的划分、单个模型的性能度量评估、多个模型的比较检验、模型泛化性能的解释。个人理解在实际情况中,前两点由乙方完成,第三点由验收方完成。个人对于书中前两点理解比较清晰,后面两点的理解不足,故并未写下后两点的相关数据,等多看几遍理解后再写。

基本术语总结

概念英文释义同义词
错误率error rate分类错误的样本数占样本总数的比例
精度accuracy分类正确的样本数占样本总数的比例
误差error学习器的实际预测输出与样本的真实输出之间的差异
训练误差training error学习器在训练集上的误差经验误差(empirical error)
测试误差testing error学习器在测试集上的误差
泛化误差generalization error学习器在新样本/测试集上的误差
过拟合overfitting学习器把训练样本自身的一些特点当成所有潜在样本都有的一般性质
欠拟合underfitting对训练样本的一般性质尚未学好
性能度量performance measure衡量模型泛化能力的评价标准

常用公式或常用方法

a、精度 = 1 - 错误率
b、测试集中,测试误差作为泛化误差的近似值
c、测试集尽量与训练集互斥,即测试样本尽量不在训练集中出现、未在训练过程中使用

一个数据集生成训练集和测试集的方法

当只有一个数据集D时,如何产生训练集S和测试集T
1、留出法 hold-out
直接将数据集D划分为两个互斥的集合,一个作为训练集S,另一个作为测试集T。使用留出法时,一般要采用若干次随机划分,每次产生一个训练集一个测试集用于实验评估,对多次的评估结果进行平均,得到最终的结果。
:数据集D划分成两个数据集时,需要保证数据分布的一致性,采样时可使用分层采样的方法,即按照数据的结构以一定比例划分成两个数据集,一定比例一般取2/3~4/5的样本用于训练。
2、交叉验证法 cross validation / k折交叉验证 k-fold cross validation
将数据集D划分为k个大小相似的互斥子集,进行k次训练和测试,每次训练选择一个作为测试集,其他的k-1个子集作为训练集,最终结果返回的是k次测试结果的均值。
特别的,当子集数量k=样本数量m时,交叉验证法又称为留一法。此时的模型与用数据集D训练出来的模型很相似。
3、自助法
设数据集D中有m个样本,对数据集D中进行m次采样(允许采样相同的数据),生成新的数据集D’作为训练集,将存在于D中但不存在于D’中的样本作为测试集。自助法在数据集较小、难以有效划分训练集和测试集时很有用,但该方法会改变数据集的分布,引入估计偏差。
**注:**逻辑上始终不被采用样本的概率为(1-1/m)^m,取极限值为1/e≈0.368,即通过自助采样,初始数据集中有36.8%的样本可作为测试集。

评估模型的方法

一个模型的好与坏除了训练集和测试集的选择,训练方法的选择外,还需要有一个准确的衡量方法。
1、错误率与精度
2、查全率和查准率
3、ROC与AUC
4、代价敏感错误率与代价曲线

如有侵权或违反相关规定,请及时联系作者删除。
如有错误或缺失,若大侠懂得,请务必联系作者,作者必会虚心求教。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值