呱呱呱教程其一

最新推荐文章于 2024-09-07 16:10:07 发布

CUMTZZP1618

最新推荐文章于 2024-09-07 16:10:07 发布

阅读量181

点赞数

分类专栏：打卡文章标签：机器学习人工智能深度学习

本文链接：https://blog.csdn.net/CUMTZZP1618/article/details/126340950

版权

打卡专栏收录该内容

11 篇文章 0 订阅

订阅专栏

呱呱呱教程其一

第一章
第二章

第一章

DataSet：数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。用数学公式可以写为 $\left\{ \textit{x}_1,\textit{x}_2,\textit{x}_3 \dots \textit{x}_n \right\}$ 。

Instance：数据集中的一条数据 $\textit{x}_i$ ，是一组反应描述对象特征的一个集合， $\textit{x}_i = \left\{ \hat{\textit{x}_{i1}}, \hat{\textit{x}_{i2}},\hat{\textit{x}_{i3}},\dots \hat{\textit{x}_{ik}} \right \}$ 其中 $k$ 称为样本的维度， $\hat{\textit{x}_{ij}}$ 被称为样本的一条特征。其中样本张成的空间被称为样本空间，每一条特征张成的空间被称为每一个特征的特征空间。

模型的训练：从模型中学习得到数据信息的过程，训练过程中使用的数据集被称为训练集

第二章

经验误差和过拟合

误差：学习器实际预测输出同样本真实值之间的差距

经验误差：学习器在训练集上训练时留下的误差

过拟合：模型泛化性能降低的现象

评估方法

留出法：将数据集划分成两个互斥的子集，一个用作训练，另一个用作测试。

交叉验证：将数据集划分为 $N$ 个互斥的子集，每次选取 $N - 1$ 个子集进行训练，剩下的进行测试。

自助法：从数据集 $D$ 中自助采样获得一个样本拷贝放入数据集 $D^{'}$ 。通过m次采样，数据集 $D^{'}$ 就包含了m个样本，将 $D^{'}$ 用作训练集， $\setminus D'$ 用作测试集。

性能量度

均方误差：
$E(f;D)=\frac{1}{m} \sum^{m}_{i=1}\Big(f(x_i)-y_i\Big)^2$

错误率：
$\dfrac{1}{m} \sum_{i=1}^m \mathbb{I}(f(\boldsymbol{x}_i) \ne y_i)$

精度：
$\dfrac{1}{m} \sum_{i=1}^{m} \mathbb{I}(f(\boldsymbol{x}_i) = y_i) \\ = 1 - E(f:D)$
在这里插入图片描述
查准率：
$\dfrac{TP}{TP + FP}$

查全率：
$\dfrac{TP}{TP + FN}$

在应用中， $P$ 和 $R$ 往往是一对矛盾的指标， $P$ 较高时， $R$ 往往偏低； $R$ 较高时 $P$ 又往往偏低。为了均衡 $P$ 和 $R$ ，前人提出了一种基于调和平均的指标。 $F 1$ 定义为 $P$ 和 $R$ 的调和平均数:
$\dfrac{1}{F1} = \dfrac{1}{2} \cdot \left( \dfrac{1}{P} + \dfrac{1}{R}\right) \nonumber \\ \Rightarrow F1 = \dfrac{2 \times P \times R}{P + R}$

在面向分类问题的模型中，由于模型的输出通常为各个类别的可能性，最终的输出结果为可能性最大的种类。当按照可能性大小顺序把样本作为正例预测，则经过每次预测都能得到相应的 $P$ 和 $R$ 值。以查准率-查全率为坐标进行绘图可以得到查准率-查全率曲线（ $P - R$ 曲线）。

在这里插入图片描述
模型的输出往往为一个来源于测试样本的实值或是概率预测，这时候会人为设定一系列的阈值进行分类。当输出的值大于或小于设定阈值时输出为正样例，反之则为反样例。当把模型的预测结果对样例进行排序时，按照该顺序逐个把样本作为正例进行预测，每次计算出真正例率(TPR)和假正率(FPR)分别作为纵坐标和横坐标就可以绘制出 $ROC$ 曲线。 $ROC$ 曲线下的面积值为 $A U C$ 指标。

CUMTZZP1618

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
呱呱呱教程其一

DataSet：数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。用数学公式可以写为D={x1,x2,x3…xn}D = \left\{ \textit{x}_1,\textit{x}_2,\textit{x}_3 \dots \textit{x}_n \right\}D={x1,x2,x3…xn}。Instance：数据集中的一条数据xi\textit{x}_ixi，是一组反应描述对象特征的一个集合，xi={xi1^,xi2^,xi3^,…xik^}
复制链接

扫一扫

专栏目录