机器学习知识（简略）

怪祝浙

已于 2024-09-27 10:34:00 修改

阅读量533

点赞数 12

文章标签：机器学习人工智能

于 2024-09-26 16:24:57 首次发布

本文链接：https://blog.csdn.net/m0_57891340/article/details/142556276

版权

机器学习（machine learning,ML）是实现人工智能（artificial intelligence，AI）目标的一种方法，深度学习（Deep learning，DL）是机器学习的一个技术

人工智能 (AI)：
- 人工智能是一个广泛的领域，它涉及到创建能够执行人类智能活动的智能机器或软件系统，如学习、推理、解决问题、感知、理解语言等。
- AI可以包括各种技术，如规则引擎、专家系统、自然语言处理、计算机视觉等。
- AI的目标是使计算机能够模拟人类智能，处理复杂的问题，并在没有明确编程的情况下做出决策。
机器学习 (ML)：
- 机器学习是AI的一个子集，它侧重于开发算法和技术，使计算机系统能够从数据中学习，识别模式，并做出决策，而无需进行明确的编程。
- ML算法通过分析数据、提取特征和建立模型来实现这一点。
- ML的应用包括分类、回归、聚类、推荐系统、异常检测等。
深度学习 (DL)：
- 深度学习是机器学习的一个子集，它使用多层神经网络来模拟人类大脑的信息处理方式。
- DL特别适合处理大量数据，并且已经在图像识别、语音识别、自然语言处理等领域取得了显著的成果。
- DL模型，如卷积神经网络（CNNs）、循环神经网络（RNNs）、生成对抗网络（GANs）等，可以通过学习数据的多层次表示来识别复杂的模式

机器学习的主要类型包括：

监督学习：使用标记的训练数据来学习一个模型，该模型可以预测未见过的数据的输出。例如，监督学习可以用于根据过去的房价数据来预测新房屋的价格。包含：线性回归算法、逻辑回归算法、分类回归（决策树）、朴素贝叶斯、KNN（K-近邻算法）。常见的监督学习任务包括：分类（Classification）：预测离散标签，如垃圾邮件检测（是垃圾邮件或不是垃圾邮件）或者识别图片中的对象是猫还是狗。 回归：预测连续值，如预测房价、未来销售、股票价格或者明天的天气。
无监督学习：在没有标签的数据上工作，试图找到数据中的隐藏结构或模式。聚类和关联规则学习是无监督学习的两个例子。包含：关联规则算法、K-means算法、PCA主成分分析。常见的监督学习任务包括：聚类：将数据点分成多个簇，使得同一簇内的数据点相似度高，不同簇的数据点相似度低，例如，市场细分、社交网络分析或者图像分割（给定一个关于用户信息的数据库，自动将用户分组到不同的市场细分中）。关联规则学习：发现大型数据集中变量之间的有趣关系。 降维：减少数据的维度，同时尽可能保留原始数据的信息，如主成分分析（PCA）。
半监督学习：结合了少量标记数据和大量未标记数据来提高学习效率，半监督学习介于监督学习和无监督学习之间。
强化学习：通过与环境的交互来学习，算法通过奖励和惩罚来学习如何做出决策。这在游戏、机器人控制等领域中非常有用。
深度学习（Deep Learning）：
- 深度学习是机器学习的一个子领域，使用多层神经网络来模拟人类学习过程。
- 它在图像识别、语音识别、自然语言处理等方面取得了显著成果。

机器学习处理流程通常包括以下步骤：

问题定义：
- 确定项目目标和机器学习任务类型（分类、回归、聚类、降维等）。
数据收集：
- 收集用于训练和测试模型的数据。
数据预处理：
- 数据清洗：处理缺失值、异常值、重复值等。
- 特征选择：选择对模型有用的特征。
- 特征工程：创建新特征或转换现有特征以提高模型性能。
- 数据转换：标准化或归一化数据，使特征具有相同的尺度。
划分数据集：
- 将数据集分为训练集、验证集和测试集。
选择模型：
- 根据问题类型选择合适的机器学习算法。
训练模型：
- 使用训练集数据来训练模型。
模型评估：
- 使用验证集评估模型性能，调整模型参数（超参数调优）。
模型优化：
- 根据评估结果优化模型，可能包括调整算法参数、特征工程、模型选择等。
模型验证：
- 使用独立的测试集来验证模型的泛化能力。
模型部署：
- 将训练好的模型部署到生产环境中。
监控和维护：
- 监控模型在实际应用中的表现，并根据需要进行维护和更新。
反馈循环：
- 收集模型预测结果的反馈，用于未来的模型迭代和改进。

以下是一个总结：

分类（Classification）：

算法：

逻辑回归（Logistic Regression）：用于二分类问题，也可以扩展到多分类。
决策树（Decision Trees）：适用于处理有明确规则的问题。
随机森林（Random Forests）：用于处理大型数据集，抗过拟合能力强。
支持向量机（Support Vector Machines, SVM）：在高维空间中表现良好，适用于复杂的分类问题。
K最近邻（K-Nearest Neighbors, KNN）：简单有效，适用于小数据集。
朴素贝叶斯（Naive Bayes）：基于概率理论，适用于文本分类等。
神经网络（Neural Networks）：强大的模型，适用于复杂的模式识别任务。

应用场景：

垃圾邮件检测
疾病诊断
图像识别
文本情感分析

回归（Regression）：

算法：

线性回归（Linear Regression）：用于预测连续值，基于最佳拟合直线。
岭回归（Ridge Regression）：线性回归的变体，引入L2正则化项。
LASSO回归（Least Absolute Shrinkage and Selection Operator）：线性回归的变体，引入L1正则化项。
决策树回归（Decision Tree Regression）：用于处理非线性关系。
随机森林回归（Random Forest Regression）：集成多个决策树进行回归。
支持向量回归（Support Vector Regression, SVR）：基于SVM的回归方法。
神经网络（Neural Networks）：适用于复杂非线性关系的预测。

应用场景：

房价预测
股票价格预测
销量预测
医疗诊断中的生存时间预测

聚类（Clustering）：

算法：

K-Means：将数据点分成K个簇，使得簇内的方差尽可能小。
层次聚类（Hierarchical Clustering）：通过创建一个聚类树来逐步合并或分割簇。
DBSCAN（Density-Based Spatial Clustering of Applications with Noise）：基于密度的聚类方法，可以识别任意形状的簇。
谱聚类（Spectral Clustering）：基于图论中的谱理论，适用于复杂的聚类结构。

应用场景：