吃瓜教程1-2章

Lexie_Wu

已于 2023-12-17 18:59:09 修改

阅读量125

点赞数

分类专栏：机器学习文章标签：机器学习

于 2023-12-12 14:45:07 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39413975/article/details/134925161

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

目录

机器学习是什么?

区分人工智能，机器学习，深度学习三个概念

人工智能应用领域

机器学习怎么学

西瓜书＋南瓜书第一章：绪论

训练完整过程

西瓜书+南瓜书第二章：模型评估与选择

过拟合与欠拟合

偏差与方差——解释泛化性能

机器学习是什么?

区分人工智能，机器学习，深度学习三个概念

人工智能：机器-人类智能

机器学习：从数据中找规律（可否用曲线拟合做类比？）

深度学习：机器学习中利用某种算法的一个分支，算法为神经网络

由于深度学习性能太好，秒掉了机器学习中的传统算法，机器学习基本被“一统天下”，所以有时候用深度学习代指机器学习

理解：机器学习是一种算法，人工智能是一门学科，机器学习可作为一种算法解决人工智能领域的问题。

人工智能应用领域

计算机视觉（Computer Vision，CV）：计算机视觉

自然语言处理（Natural Language Processing，NLP）：计算机拥有语言能力

推荐系统（Recommender System，RS）：计算机精确分析人的爱好

机器学习怎么学

学的时候可以看懂推导过程即可
调scikit-learn库即可，不用自行实现

西瓜书＋南瓜书第一章：绪论

基本术语

（之前看到那些术语感觉好高级，现在终于懂了）

第一组术语：训练，训练样本，训练集，属性，标记

（特征1，特征2，特征3，...，结果）组成一个训练样本，所有训练样本的集合称为训练集，基于训练集进行规律的寻找（也可称之为模型建立）成为训练。

（特征1，特征2，特征3）称为属性，结果称为标记

第二组术语：测试，测试样本，测试集，预测

（特征1，特征2，特征3，...，结果）组成一个测试样本，所有测试样本的集合称为测试集。测试集是用来检查训练效果的。

若某样本只有（特征1，特征2，....），无结果，则可基于训练出的模型对该未知结果的样本进行预测。

理解：训练集和测试集都是已知全部信息的，训练过程试图建立一个从样本的结果的合理映射。训练得好——>泛化能力强

第三组术语：分类，回归

样本值离散：分类。当分类只有两类时，称为“二分类”，称1个为正类，1个为反类

样本值连续：回归

第四组术语：无监督学习，有监督学习

无监督学习：无标记，分类预先未知。代表：聚类

有监督学习：有标记，分类预先已知。代表：分类，回归

第五组术语：模型，假设空间，版本空间，算法

算法：方法（决策树，线性回归....）

模型：函数或抽象函数——>更广泛地说，模型是从输入空间到输出空间的映射

第六组术语：阈值

通过模型运算得出的结果为数字，通过阈值设定输出判断结果

归纳偏好

如果没有归纳偏好，可能出现多个一样好的模型

比如在这个图中，要让曲线穿过样本点，如果没有限制，对于计算机来说A,B一样好，但如果有“平滑”的归纳偏好，则显然A更好。

经过推导，我们可以发现，误差与总学习算法无关

推导：

推导的关键：

注意：实际情况是高度拟合数据的函数才是真实目标函数，上述那种4种等概的真实函数是不可能的

理解：归纳偏好决定了一个算法的好坏（对于使用者而言），偏好包括两个维度，一是使用者自己设定的偏好（曲线平滑或不平滑等），另一方面是提供的数据本身有偏好

实际训练中：哪个算法训出来的模型在测试集上表现好，哪个算法就牛逼

疑问：同一类问题的最优算法可能不一致？与提供的数据集有关？

训练完整过程

一个重要思想：数据决定模型上限，算法让模型逼近上限

西瓜书+南瓜书第二章：模型评估与选择

过拟合与欠拟合

欠拟合：没找到一般性质——>由于学习能力低下导致

过拟合：把个体特征当成一般性质，泛化能力差——>机器学习的关键障碍，无法避免，只能缓解

一个生动的例子：

评估方法

1. 留出法：把数据集D划成两个数据集合。

不同留出方式可能导致训练结果不同，所以往往进行多次随机留出。
每次样本划分比例需一致，以免因数据划分导致额外误差

2. 交叉验证法：把数据集D划分成k个互斥集合，每次取一个集合作为测试集，其他k-1个集合作为训练集。也称为”k折交叉验证“。k一般取10，也常取5，20

若k等于样本数量——>留一法：数据量大不实用

3. 自助法：通过多次放回采样，从来没被采到的则作为测试集，m次采样中，样本始终不被采到的概率。即约有1/3的数据用于测试

4.调参：每个参数设定范围和变化步长。分为两步，第一步：调参，将数据分为训练集和验证集，用于设定参数。第二步：训练，将全部数据用于训练，得到模型。

性能度量

回归任务：均方误差
分类任务：

错误率和精度
查全率和查准率:
查全率：尽量找出所有好西瓜
查准率：好西瓜占比尽量大

有交叉不方便比较优劣，通过平衡值（BEP），即查全率等于查重率时的值或 $F_{\beta}$ 度量

若有n个矩阵算查全率和查准率（多个数据集/多次训练）

宏查x率：各矩阵P,R和取平均

微查x率/微 $F_{\beta}$ ：先把各矩阵对应项加起来再取平均

ROC与AUC：
ROC：排序后找截断点划分正例反例
AUC：ROC面积，反映排序质量
代价曲线：对损失敏感

比较检验

核心：假设检验

应用：单学习器的泛化性能检验—>t检验

双学习器的比较检验——>5x2交叉验证，McNemar检验（卡方分布）

多学习器的比较检验——>Step1：Friedman检验平均序值（检验算法是否性能相同）
Step2：Nemenyi检验两个算法是否有显著差别

偏差与方差——解释泛化性能

偏差与方差对学习期望的泛化错误率进行拆解

重要理解:

偏差：算法拟合能力，方差：数据扰动（算法鲁棒性？)，噪声:任务难度

欠拟合:偏差主导，过拟合:方差主导

心得

1-2章主要是机器学习的基本概念，完成了整个流程的术语描述。从训练——预测——性能评估三个环节进行了大致的描述，估计后面几章会开始学习不同的算法走这套流程

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
吃瓜教程1-2章

西瓜书1-2章学习，基本的术语，全流程
复制链接

扫一扫

专栏目录

Lexie_Wu

CSDN认证博客专家 CSDN认证企业博客

码龄7年

华中科技大学

5: 原创

72万+: 周排名

22万+: 总排名

2877: 访问

: 等级

106: 积分

38: 粉丝

55: 获赞

2: 评论

50: 收藏

私信

关注

热门文章

分类专栏

机器学习 1篇

最新评论

吃瓜教程第6章
CSDN-Ada助手: 恭喜你写完了第5篇博客！看来你对“吃瓜教程”有着很多心得体会啊。不过我觉得接下来可以考虑加入一些实用的案例分析，或者是一些具体的操作步骤，这样读者们会更容易理解并且能够得到更多的启发。希望你能够继续保持创作的热情，期待你的下一篇作品！
吃瓜教程第5章
CSDN-Ada助手: 恭喜作者在博客上发布了第四篇文章，标题为“吃瓜教程第5章”。看来作者对于吃瓜教程有着深入的研究和思考，能够写出如此精彩的文章真是不容易。希望作者能够继续坚持创作，不断提升自己的写作水平，为读者带来更多有价值的内容。或许下一步可以考虑添加一些案例分析或者实际操作的经验分享，这样能够更好地帮助读者理解和应用吃瓜教程的知识。期待作者的下一篇作品，继续加油！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
吃瓜教程第3章
CSDN-Ada助手: 太棒了！看到你写的第二篇博客我感到非常振奋，希望你能继续保持创作的热情！关于你这篇博文的内容，我觉得你可以进一步了解一些相关的知识，比如在凸函数的求解中，除了一阶梯度推广到二阶海塞矩阵外，还可以了解到Lipschitz连续和强凸函数的概念，这些都是深入理解凸函数性质的重要内容。另外，你也可以进一步探讨海塞矩阵的应用，比如在牛顿法中的作用等等。希望这些建议能对你有所帮助，期待你更多的精彩内容！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
吃瓜教程1-2章
CSDN-Ada助手: 恭喜你开始了博客创作，标题“吃瓜教程1-2章”听起来非常有趣！希望你能继续分享更多有趣的教程内容，让读者们能够从中受益。建议你在下一篇博客中加入更多细节和实用的技巧，让读者们更好地理解和学习。加油！期待你更多精彩的作品！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。