U1 概念介绍和入门

轩不丢

已于 2024-01-02 11:05:34 修改

阅读量1.3k

点赞数 40

分类专栏：机器学习文章标签：机器学习

于 2023-12-27 00:02:48 首次发布

本文链接：https://blog.csdn.net/ning_xiao_xuan/article/details/135063330

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

文章目录

一、概念
二、相关邻域
三、分类
- 1、主要研究问题
四、模型评估和选择
五、数据集的划分
六、性能度量

一、概念

机器学习的基本思想是让计算机通过从大量数据中学习模式、规律和趋势，并使用这些学习到的知识来做出预测、分类或决策。它依赖于统计学、概率论和优化理论等数学方法，通过构建和训练模型来实现任务的自动化。

二、相关邻域

模式识别，数据挖掘，计算机视觉，自然语言处理。

三、分类

在这里插入图片描述

1、主要研究问题

分类聚类回归降维
在这里插入图片描述

四、模型评估和选择

1、模型性能

同一问题，多种算法/模型。分类问题：贝叶斯决策、决策树、SVM…

同一算法/模型，不同参数配置

2、误差

误差(error)：算法/模型的实际预测输出与样本的真实输出之间的差异

训练误差/经验误差(training/empirical error)：学习器在训练集上的误差。

泛化误差(generalization error)：学习器在新样本上的误差

最终的目标是泛化误差。但模型的搭建只能得出训练误差，因此要进行转换

3、模型评估选择的步骤

对数据集进行划分，分为训练集和测试集两部分
在训练集上训练得到模型
对模型在测试集上面的泛化性能进行度量
基于测试集上的泛化性能，依据假设检验来推广到全部数据集上面的泛化性能

五、数据集的划分

1、划分方式

1）方式一

目标：将数据集D划分为训练集S和测试集T两部分，在训练集上训练模型，然后在测试集上评估其性能。

原则：测试集应尽量与训练集互斥；即测试样本尽量不在训练集中出现，未在训练过程中使用。

2）方式二

将数据集D划分为训练集S、验证集V和测试集T三部分，在训练集上训练模型，在验证集上调整模型超参数，并对模型的能力（是否过拟合）进行初步评估和选择，在验证集上然后在测试集上评估其性能。

原则：测试集、验证集应尽量与训练集互斥；即验证样本、测试样本尽量不在训练集中出现，未在训练过程中使用。

2、划分方法

保持/留出法(hold-out) ：给定数据随机地划分到两个独立的集合：训练集和测试集。通常，2/3的数据分配到训练集，其余1/3分配到测试集。使用训练集导出模型，用测试集来估计泛化误差。

随机子抽样(random sub-sampling)：保持方法的一种变形；随机地选择训练集和测试集，将保持方法重复k次，总准确率估计取每次迭代准确率的平均值。

k折交叉验证(k-fold cross-validation)：初始数据数据被划分成 k 个大小相似、互不相交的子集/”折”。训练和测试 k 次；在第 i 次迭代，第 i 折用作测试集，其余的子集都用于训练学习，取 k 次测试结果的均值。
与保持法和随机子抽样法不同，这里每个样本用于训练的次数相同，并且用于检验一次。在这里插入图片描述
自助法(bootstrapping):从初始样本 $D$ 中有放回均匀抽样；即每当选中一个样本，它等可能地被再次选中并再次添加到训练集中；采样 $∣ D ∣$ 次后，即可获取大小为 $∣ D ∣$ 的训练样本集；没有进入训练集的数据样本形成测试集。

优势：可产生多个不同训练样本集；对于小数据集，自助法效果胜过K折交叉验证；能从初始数据集中产生多个不同的训练集，这对集成学习等方法有很大的好处。
缺点：改变了数据集分布，会引入估计偏差。

六、性能度量

1、回归任务

均方误差(Mean Squared Error)： $\frac{1}{n} \sum_{i=1}^n (f(x_i)-y_i)^2$

更一般情况：对于数据分布 $D$ 和概率密度函数 $p (\cdot)$ ，均方误差可描述为：
$\int_{x-D}(f(x_i)-y_i)^2 p(X)dx$

$f$ ：训练的学习器
$D$ ：初始样本集， $D =$ { $x_1, y_1), (x_2, y_2),…,(x_n, y_n)$ }
$y_i$ ：样本输入 $x_i$ 的真实标记

2、分类任务

错误率： $\frac{1}{n} \sum_{i=1}^n Π(f(x_i)\neq y_i)$
精度： $\frac{1}{n} \sum_{i=1}^n Π(f(x_i) = y_i) = 1-E(f;D)$

3、混淆矩阵

用来作为分类规则特征的表示，它包括了每一类的样本个数，包括正确的和错误的分类
在这里插入图片描述
• $TP$ ：被分类器正确分类的正元组；期望为 $P$ ，分类为 $P$ ：称为真正
• $TN$ ：被分类器正确分类的负元组；期望为 $N$ ，分类为 $N$ ：称为真负
• $FP$ ：被错误标记为正元组的负元组；期望为 $N$ ，分类为 $P$ ：称为假正
• $FN$ ：被错误标记为负元组的正元组。期望为 $P$ ，分类为 $N$ ：称为假负

• 准确率(识别率)：评估分类器正确识别正、负样本的能力
$\frac{TP+TN}{P+N}$

• 错误率：评估分类器错误识别正、负样本的能力
$\frac{FP+FN}{P+N}$

• 真阳性率（ $TPR$ ）：评估分类器正确识别正样本的能力
$\frac{TP}{P} = \frac{TP}{TP+FN}$ 敏感性(sensitivity)

• 真阴性率（ $TNR$ ）：评估分类器正确识别负样本的能力
$\frac{TN}{N} = \frac{TN}{TN+FP}$ 特异性(specificity)
在这里插入图片描述
• 精度/查准率(precision)：评估预测正样本中的真正样本
$\frac{TP}{TP+FP}$

• 召回率/查全率(Recall)：评估分类器正确识别正样本的能力，等价于敏感性
$\frac{TP}{TP+FN}$

查准率和查全率互相矛盾。查准率高，则查全率低；反之亦然

$P - R 曲线$
以查全率R为横轴，查准率P为纵轴，根据模型预测结果对样本进行排序，把最可能是正样本个体排在前面，而后面的则是模型认为最不可能为正例的样本，再按此顺序逐个把样本作为正例进行预测并计算出当前的查准率和查全率得到的曲线。
在这里插入图片描述
$F 1 度量$ ：查准率和查全率的调和平均，推荐系统常用
$\frac{1}{F_1} = \frac{1}{2}(\frac{1}{precision}+\frac{1}{recall})$