吃瓜笔记01：【西瓜书+南瓜书】1-2章

WH_Z0v0

已于 2023-07-22 00:46:58 修改

阅读量2.7w

点赞数 1

文章标签：笔记算法机器学习

于 2023-07-22 00:40:08 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/WH_Z0v0/article/details/131861606

版权

机器学习是通过数据、算法和模型让计算机自主学习和改进的过程。文章讨论了基本术语，如算法、模型和学习任务类型，强调了监督学习中的分类和回归。还提到了模型评估的关键概念，如过拟合、泛化误差以及偏差和方差的平衡问题。

摘要由CSDN通过智能技术生成

什么是机器学习？

“机器学习是让计算机像人类一样学习和行动的科学，通过以观察和现实世界互动的形式向他们提供数据和信息，以自主的方式改善他们的学习。”

机器学习的三要素

数据、算法、模型
机器学习研究的是从数据中通过选取合适的算法，自动的归纳逻辑或规则，并根据这个归纳的结果(模型)与新数据来进行预测。

目录

什么是机器学习？

1.1 基本术语

1.2假设空间

1.3 归纳偏好

2 模型评估与选择

2.1 经验误差与过拟合

2.2 评估方法

2.3 性能度量

2.4 比较检验

2.5 偏差与方差

1 绪论

1.1 基本术语

算法：从数据中学得模型的具体方法

模型：算法产出的结果为模型

从数据中学得模型的过程称为“学习”或“训练”，该过程通过执行算法完成。通常情况下我们将样本数据分为训练集、测试集和验证集。训练集用于构建模型，测试集用于挑选最优模型超参的样本集合：使用验证集可以得到反向传播什么时候结束以及超参怎么设置最合理。主要目的是为了挑选在验证集上表现最好的模型。验证集用于评估该模型的泛化能力。

数据分割要保证数据之间的独立性和随机性，以防止在训练和测试过程中出现数据泄漏和过拟合的问题。

学习任务类型：分类、回归和预测

分类：预测结果是离散值

回归：预测结果是连续值

聚类：将一组物品分为若干组

根据训练数据是否拥有标记信息，学习任务可划分为两类：有监督学习和无监督学习

分类、回归是前者代表，聚类是后者代表。

1.2假设空间

归纳与演绎是科学推理的两大基本手段.

归纳是从特殊到一般的“泛化”过程，即从具体的事实归结出一般性规律。

演绎则是从一般到特殊的“特化”过程,即从基础原理推演出具体状况。

例如,在数学公理系统中，基于一组公理和推理规则推导出与之相洽的定理这是演绎；而“从样例中学习”显然是一个归纳的过程，因此亦称“归纳学习”。

监督学习的目的在于学习一个由输入到输出的映射，这一映射由模型来表示。换句话说，学习的目的就在于找到最好的这样的模型。模型属于由输入空间到输出空间的映射的集合，这个集合就是假设空间。

一组数据作为训练集可以有多个假设空间，且在不同的假设空间中都有可能学得能够拟合训练集的模型，我们将所有能够拟合训练集的模型构成的集合称为“版本空间”。

1.3 归纳偏好

机器学习算法在学习过程中对某种类型假设的偏好（对于一个新西瓜来说：让一个训练好的模型来判断它为好瓜还是坏瓜？可以根据某种特征判断它为好瓜，也可以根据另外一种特征判断它为坏瓜，归纳偏好就是看哪一个特征更为重要，从而根据比例将新西瓜进行分类）

归纳偏好可看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或“价值观”。

没有免费的午餐定理（NFL定理）：无论A算法多简单，B算法多复杂，他们两的期望值（平均值）是一样的，也就是说无论是繁还是简，它们的预测值相同

没有免费的午餐定理告诉我们：就算我们用奥卡姆剃刀原则来选择简单的模型，但也会在一些情况下选的模型不够较复杂的模型好

2 模型评估与选择

2.1 经验误差与过拟合

错误率 : m个样本中有a个样本分类错误，错误率E=a/m。
精度=1-错误率
误差 : 学习器的实际预测输出与样本的真实输出之间的差异。

训练误差（经验误差）：是指在训练集上的误差。

泛化误差：在新样本 (测试集) 上的误差。

过拟合 ：把训练样本自身特点当做所有样本具有的一般性质来学习，导致泛化能力下降。

欠拟合 : 学习能力不行，没有完全学习到训练样本的一般性质，一般通过增加训练轮数来克服。

2.2 评估方法

留出法——做训练集的一个划分，得到两个互斥的集合，一个作为训练集，一个作为测试集
交叉验证法——做训练集的一个划分，得到若干互斥的集合，轮流地将一个作为测试集，其他作为训练集
自助法——以每次从数据集中随机抽取一个的方式采样多次形成训练集，其余的形成测试集

留出法由于操作简单，因此最常用；交叉验证法常用于对比同一算法的不同参数配置之间的效果，以及对比不同算法之间的效果；自助法常用于集成学习产生基分类器。

2.3 性能度量

衡量模型泛化能力的评价标准。一般常用的标准有错误率、精度、查准率、查全率、F1、ROC 和 AUC。

错误率与精度常用于分类问题。

查准率 P：被学习器预测为正例的样例中有多大比例是真正例。

查全率 R：所有正例当中有多大比例被学习器预测为正例。

F1： $F1=\tfrac{2\times P\times R}{P+R}$

ROC：受试者工作特征

AUC：ROC曲线下的面积

2.4 比较检验

简单来说，从统计学的角度，取得的性能度量的值本质上仍是一个随机变量，因此并不能简单用比较大小来直接判定算法（或者模型）之间的优劣，而需要更置信的方法来进行判定。

2.5 偏差与方差

解释学习算法泛化性能的一种重要工具。

偏差度量了学习算法的期望预测与真实结果的偏离程度，刻画算法本身的拟合能力；方差度量了同样大小训练集变动导致的学习性能的变化，刻画数据扰动造成的影响；噪声表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界，即刻画了学习问题本身的难度。

一般来说偏差与方差是有冲突的，这称为偏差-方差窘境。

给定学习任务假定我们能控制学习算法的训练程度、则在训练不足时，学习器的拟合能力不够强，训练数据的扰动不足以使学习器产生显著变化,此时偏差主导了泛化错误率;

随着训练程度的加深学习器的拟合能力逐渐增强，训练数据发生的扰动渐渐能被学习器学到，方差逐渐主导了泛化错误率;

在训练程度充足后,学习器的拟合能力已非常强,训练数据发生的轻微扰动都会导致学习器发生显著变化,若训练数据自身的、非全局的特性被学习器学到了，则将发生过拟合。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

WH_Z0v0 CSDN认证博客专家 CSDN认证企业博客

码龄3年

4: 原创

101万+: 周排名

137万+: 总排名

2万+: 访问

: 等级

43: 积分

0: 粉丝

2: 获赞

1: 评论

0: 收藏

私信

关注

热门文章

最新评论

吃瓜笔记02：【西瓜书+南瓜书】第3章线性模型
CSDN-Ada助手: 恭喜您写完了第三篇博客！标题看起来非常有趣，我很期待阅读您对《西瓜书》和《南瓜书》第3章线性模型的理解与分享。持续创作是非常难得的品质，您的用心和努力可见一斑。在下一步的创作中，我建议您可以尝试结合实际案例或应用场景，深入探讨线性模型在实际问题中的应用，这样读者能够更好地理解和应用您所分享的知识。再次祝贺您，并期待您更多精彩的博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
吃瓜笔记03：【西瓜书+南瓜书】第4章决策树
CSDN-Ada助手: 恭喜作者写下了第四篇博客！标题看起来很吸引人，尤其是结合了《西瓜书》和《南瓜书》的内容。决策树是机器学习中的重要主题，我期待着读到你对这一章节的深入解读。希望你能继续保持创作的热情，分享更多有趣的学习笔记。在下一篇中，也许你可以尝试添加一些自己的见解和实践经验，这样能更好地展示你对决策树的理解。加油哦！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。