机器学习简要概述_机器学习概述 csdn-CSDN博客

本文链接：https://blog.csdn.net/meishuren/article/details/136007274

本文概述了机器学习的基本概念，包括特征提取与分类器的应用，以及深度学习如何解决特征提取难题。介绍了数据集划分、模型评价方法，详细讲解了决策树、贝叶斯方法、支持向量机、人工神经网络和K近邻等技术。同时涵盖了集成学习和特征降维，以及深度学习中的卷积神经网络和聚类算法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、基本概念及应用

传统机器学习算法首先需要对数据进行特征提取，采用分类器（如决策树、人工神经网络、贝叶斯、集成学习、支持向量机等）进行分类。

机器学习：特征提取+分类器分类

特征提取难，制约发展。

深度学习出现，一定程度解决了特征提取的难题，机器学习繁荣起来。

机器学习 + 数据库 = 数据挖掘

+ 工业应用 = 模式识别

+ 图像处理 = 机器视觉

+ 语音处理 = 语音识别

+ 文本处理 = 自然语言处理

二、数据集及模型

数据集的划分：

方法：留出法；交叉验证法；自助法。

模型的评价方法：

1、分类任务的评价指标：错误率与准确率；

混淆矩阵、查准率与F1；

2、回归任务的评价指标：平均绝对误差；

均方误差MSE；

均方根误差RMSE；

R^2（回归平方和SSR/总偏差平方和SST）；

线性模型：

解决问题思路：（1）模型训练：先假设模型，再确定代价函数（模型好不好的标准），再求解代价函数的极小值。（2）模型测试：预测数据集代入模型，与真实值做对比。

一元线性回归

多元线性回归

逻辑回归

三、决策树

决策树	是一种常见的分类和回归模型

从根节点出发，从上往下搜索，直到叶节点，实现对未知样本的分类。

如何构造决策树？

（1）属性选择：

1.信息增益与ID3算法：	计算每个属性的信息增益，选择信息熵最大的节点作为根节点。计算余下属性的信息增益，选择子树的根节点。（所有选择基于每个属性下对应的数据集）
2.信息增益率（C4.5算法）	首先从属性中找到信息增益高于平均水平的属性。再选择增益率最高的属性作为根节点。
3.基尼指数（分类与回归树CART）	数据集纯度越大，基尼值越小。选择基尼指数最小的属性作为根节点。

（2）决策树剪枝

以上方法都存在过拟合问题。

如何考察泛化性能？

将训练集分为训练集和验证集。用训练集构件决策树，用验证集进行预剪枝或后剪枝。

预剪枝	每一步划分时，确定划分属性后，估计泛化性能。性能提升，则划分，否则停止划分。泛化性能：验证集精度与上一步验证集精度对比，大于->不剪枝，小于->剪枝。
后剪枝	先生成决策树，自底向上对叶节点考察泛化性能。泛化性能：把叶节点剪除，验证集精度与原来精度对比，大于->剪枝，小于->不剪枝。

（3）连续属性的处理

将连续属性排序，利用二分法，计算划分点（排好序的相邻两数的平均数），划分数据，将一个连续属性离散为几个离散属性。

（4）决策树的应用

Sklearn：sklearn.tree库。

实例：鸢尾花分类、手写字符分类。

四、贝叶斯方法

引入：
99男1女抽一个奖，中奖的是男是女？
领奖的梳马尾辫穿白裙子，中奖的是男是女？

贝叶斯方法基本原理：先验概率、条件概率、后验概率问题。

朴素贝叶斯方法	假设多个特征（属性）之间是独立的。
高斯朴素贝叶斯方法	特征是连续值
伯努利朴素贝叶斯方法	二分类问题，取值0或1
多项式分布朴素贝叶斯方法	特征是离散变量，服从多项式分布（掷色子，1-6的概率）

五、支持向量机

把划分数据的决策边界就叫做超平面。离这个超平面最近的点就是“支持向量”。

支持向量最中间的线叫做最优分类器。

支持向量机是一种在特征空间上以“最大间隔”为目标的线性二分类器。在“核技巧”的辅助下可以解决线性不可分问题，也可利用one-vs-rest技术解决多分类问题。

对偶问题：原始问题在满足一定条件时，通过一系列变换和处理，可以生成一个与之相关的对偶问题。

对偶问题和原始问题是等价的，对偶问题的解就是原始问题的解。在一些具体的优化问题中，尤其是约束优化问题中，对偶问题往往更容易求解。

核技巧：将原始空间中的向量作为输入向量，并返回特征空间（转换后的数据空间,可能是高维）中向量的点积的函数称为核函数。

软间隔：软间隔SVM的目标是在尽可能大的间隔和尽可能少的误分类之间找到一个平衡。

六、人工神经网络

神经元模型

激活函数

1.符号函数

2.S型函数（Sigmoid 函数）

3.双曲正切函数（tanh函数）

4.线性整流函数（ReLU函数）

七、K近邻

K-近邻基本原理：	K近邻算法，即是给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的K个实例，这K个实例的多数属于某个类，就把该输入实例分类到这个类中。
距离度量方法	曼哈顿距离、欧式距离、棋盘距离… …
K值的选择与特征规范化的必要性	在使用K近邻之前，特征必须规范化到一个数量级才能计算距离。（z-score、min-max规范化方法）。
K维树（特征维度为K）	快速找到与测试样本最邻近的k个训练样本，而不再需要计算测试样本和训练集中的每一个样本的距离。

八、集成学习

集成学习：	指通过构件并结合多个分类器，生成一个比单体分类器更稳定并且各方面都更好的模型。（同质集成、异质集成）
自适应提升（boosting）系列算法	由若干基分类器按照不同的权重组合成为一个强分类器。（AdaBoost算法、提升树系列算法等）
自助投票（bagging）方法	使用数据集训练出N个基分类器，将N个基分类器的分类结果结合（简单投票法，少数服从多数）起来。（随机森林 Random forest，RF）

九、特征提取与数据降维

特征提取方法种类繁多，列举一部分。

自然语言处理领域	TF-IDF法、WordVec方法、FastText法、Bert法等
语音识别领域	MFCC、Fbank
机器视觉领域	LBP方法、灰度共生矩阵、HOG特征提取方法、Haar-like特征、

数据降维	去除冗余数据（特征）、降低多个变量之间的相关性。
主成分分析法（PCA）	原理：投影、基变换、方差和协方差、协方差矩阵、矩阵对角化、奇异值分解（SVD分解）