机器学习基础

最新推荐文章于 2024-03-08 16:50:34 发布

Цветы цветут

最新推荐文章于 2024-03-08 16:50:34 发布

阅读量1.3k

点赞数 43

分类专栏：《机器学习实战》文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/qq_40633401/article/details/136450419

版权

《机器学习实战》专栏收录该内容

6 篇文章 0 订阅

订阅专栏

本文详细介绍了机器学习的基础概念，包括其定义、关键术语，以及主要任务如分类、回归等。讲解了如何选择合适的算法，考虑任务目标和数据特性，并概述了开发机器学习应用程序的基本步骤，强调实践的重要性。

摘要由CSDN通过智能技术生成

1 机器学习

1.1 机器学习的定义

机器学习就是把无序的数据转换成有用的信息。机器学习算法通过对大量数据的分析和学习，能够自动发现数据中的模式，并利用这些模式来做出预测或做出决策。

机器学习横跨了计算机科学、工程技术和统计学等多个学科。

1.2 一些关键术语

数据集 (Dataset)：用于训练和评估机器学习模型的数据集合。
特征 (Feature)：用于描述数据集中每个样本的属性或特性，也称为输入变量。特征类型有数值型、二值型、枚举型等。
标签 (Label)：用于监督学习的数据集中的输出变量，表示样本的真实结果或目标。在分类算法中目标变量的类型通常是标称型的（即，离散型的分类类别），而在回归算法中通常是连续型的。
模型 (Model)：通过机器学习算法从数据中学习到的规律或模式的表达形式。该模型可以用于预测新数据的结果或进行决策。
算法训练 (Training)：机器学习模型通过使用训练数据集来学习数据的规律或模式的过程。
训练集（TrainDataset）：用于训练机器学习算法的数据样本集合。
测试集 (TestDataset)：用于评估机器学习模型性能的数据集，该数据集与训练数据集是独立的。
监督学习 (Supervised Learning)：一种机器学习方法，训练数据包含了输入和相应的输出（标签），模型通过学习输入和输出之间的关系来进行预测，例如分类和回归。
无监督学习 (Unsupervised Learning)：一种机器学习方法，训练数据只包含输入，模型通过学习数据之间的隐藏结构或模式来发现数据的内在关系，例如聚类、密度估计等，无监督学习可以减少数据特征的维度。
半监督学习 (Semi-supervised Learning)：一种机器学习方法，训练数据集包含部分有标签数据和部分无标签数据，模型利用有标签数据进行监督学习，并利用无标签数据进行学习。
强化学习 (Reinforcement Learning)：一种机器学习方法，模型通过与环境互动，在尝试达到某个目标的过程中学习最优的行为策略。
损失函数 (Loss Function)：用于度量模型预测结果与实际标签之间的差异的函数。
优化算法 (Optimization Algorithm)：用于调整模型参数以最小化损失函数的算法。
过拟合 (Overfitting)：当模型过度学习训练数据中的噪声或特定样本的特征，导致在新数据上表现不佳的情况。
欠拟合 (Underfitting)：当模型未能捕获数据中的相关关系，导致无法对训练数据或新数据进行准确预测的情况。
交叉验证 (Cross-validation)：一种评估机器学习模型泛化性能的技术，通过将数据集划分为多个子集，在不同的子集上进行训练和评估，以减少评估结果的方差。

2 机器学习的主要任务

分类 (Classification)：将数据集中的样本划分到不同的类别中。常见应用：垃圾邮件识别、图像分类、医学诊断等。
回归 (Regression)：主要用于预测连续型变量的数值。例如房价预测、销售量预测等。
聚类 (Clustering)：将数据集中的样本划分为不同的组别，使得组内的样本相似度较高，组间的相似度较低，常用于市场细分、社交网络分析等。
降维 (Dimensionality Reduction)：减少数据集中特征的维度，保留最重要的特征信息，可以帮助减少计算复杂度、去除冗余信息、可视化数据等。
异常检测 (Anomaly Detection)：识别数据集中与大多数样本不同的异常样本，可应用于信用卡欺诈检测、网络安全等领域。
关联规则学习 (Association Rule Learning)：发现数据集中项目之间的关联关系。例如购物篮分析中的频繁项集挖掘。
强化学习 (Reinforcement Learning)：通过与环境的交互学习最优的动作策略，应用于机器人控制、游戏玩法优化等。
生成对抗网络 (Generative Adversarial Networks, GANs)：学习生成能够欺骗判别器的新数据，以此来生成逼真的数据样本，可用于图像生成、数据增强等。
自然语言处理 (Natural Language Processing, NLP)：处理和理解人类语言的任务，包括文本分类、命名实体识别、情感分析等。
推荐系统 (Recommendation Systems)：根据用户的历史行为和偏好，预测用户可能感兴趣的物品，此系统多应用于电商平台、社交媒体等。

3 如何选择合适的机器学习算法

选择实际可用的算法，须考虑下面两个问题：

1、使用机器学习算法的目的，想要算法完成何种任务？

如果要预测目标变量的值，则可以选择监督学习算法，否则可以选择无监督学习算法。
确定选择监督学习算法之后，需要进一步确定目标变量类型：
- 如果目标变量是离散型，如是/否、A/B/C、红/黄/黑等，可选择分类算法；
- 如果目标变量是连续型数值，如0.0～100.00、-999～999等，则选择回归算法。

2、需要分析或收集的数据是什么？

我们应该充分了解数据，对数据了解得越充分，越容易创建符合实际需求的应用程序。主要应该了解数据的以下特性：