机器学习概论

森屿山茶

于 2022-07-18 21:39:03 发布

阅读量683

点赞数

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_52189899/article/details/125859923

版权

机器学习专栏收录该内容

1 篇文章

订阅专栏

本文深入探讨了机器学习的基本概念，包括它作为实现人工智能的方法，以及与人工智能和深度学习的关系。机器学习流程涵盖数据预处理、特征工程、建模和结果评估。介绍了数据清洗、采样、特征编码、选择和降维等关键步骤。此外，还讨论了有监督、无监督、半监督和强化学习，并列举了各种学习方法和评价指标，如准确率、精确率、召回率和F1-Score。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、机器学习概念（死气硬背的学习）

定义：机器学习是从人工智能中产生的一个重要的学科分支，是实现智能化的关键。机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

分类：弱人工智能（now）、强人工智能、超人工智能

问题：机器学习与人工智能、深度学习的区别？

机器学习是一种实现人工智能的方法，其使用大量数据进行“训练”，通过各种算法从数据中学习如何完成任务。

深度学习属于机器学习的子类，是利用深度神经网络来解决特征表达的一种学习过程。

发展历程：推理期->知识期->学科形成->繁荣期

二、基本术语

机器学习流程：数据预处理（数据清洗、集成、采样）->特征工程（特征编码、选择、降维、规范化）->数据建模（回归、分类、聚类和其他问题）->结果评估（拟合量度、查准率、查全率、F1值、PR曲线、ROC曲线）

2.1数据预处理：

数据清洗：对各种脏数据进行对应方法的处理，得到标准、干净、连续的数据，提供给数据统计、数据挖掘等使用。

特征：数据完整性（信息补全）、唯一性（主键/规则去重）、合法性（设置字段内容、类型的合法规则）、权威性（不同渠道设置权威级别）、一致性（建立数据体系）

数据采样：解决数据不平衡问题（数据集类别分布不均）->过采样（随机复制少数类来增加实力数量，增加样本中少数类代表性）、欠采样（随机消除占多数的类样本来平衡分布）

数据集拆分：机器学习将数据分为三份（训练集、验证集、测试集），利用留出法（数据集分为互斥集合，注意保持划分后集合数据分布的一致性）或K-折交叉验证法（划分为k组大小相似的互斥子集，每个子集数据分布一致，且包含对应的训练和测试集）

2.2特征工程：

特征编码：对数据集中经常出现的字符串信息转化为数值形势运算（one-hot编码、语义编码）

特征选择：选取数据集中用于分类的特征

特征降维：数据降维（如图片色彩信息转RGB二维数组）

规范化：降低属性数量量级对结果的影响->标准化（减去均值求方差，再按比缩放）、区间缩放（属性缩放进指定大小的区间）、归一化（将某属性特征模长转化为1）

2.3机器学习方式

有监督学习：训练集有标签（结果），给定数据预测标签，常见任务包括分类和回归

无监督学习：训练集无标签，给定数据寻找结构，常见任务包括聚类

半监督学习：自动利用无标签样本（少量标签训练数据和大量无标签数据）提升学习性能，又分为纯半监督学习和直推学习

强化学习：给定数据，学习如何选择一系列行动，基于环境反馈进行行动

2.4机器学习方法分类

分类：贝叶斯、支持向量机（SVM）、决策树、集成学习

回归：线性回归

聚类：K-means、层次聚类

其他：神经网络

2.5机器学习评价指标

准确率：分类正确的样本个数占比

精确率：分类正确的正样本个数占所有正样本比例

召回率：分类正确的正样本个数占正样本比例

F1-Score：精确率和召回率的调和平均值

PR曲线：描述模型优劣，P->精确率，R->查全率（设置不同阈值求得不同PR值绘制PR曲线）

ps：如果PR曲线A完全包裹住曲线C则认为学习器A优于C

ROC曲线：横轴->假正例率FPR，纵轴->真正例率TPR

AUC：ROC曲线下的面积

2.6其他概念

独立同分布：假设样本空间中全体样本服从一个未知分布，则每个样本都独立地取自该样本

“奥卡姆剃刀”：若多个假设与观察一致，则选最简单的那个

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。