呱呱呱教程其一

第一章

DataSet:数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。用数学公式可以写为 D = { x 1 , x 2 , x 3 … x n } D = \left\{ \textit{x}_1,\textit{x}_2,\textit{x}_3 \dots \textit{x}_n \right\} D={x1,x2,x3xn}

Instance:数据集中的一条数据 x i \textit{x}_i xi,是一组反应描述对象特征的一个集合, x i = { x i 1 ^ , x i 2 ^ , x i 3 ^ , … x i k ^ } \textit{x}_i = \left\{ \hat{\textit{x}_{i1}}, \hat{\textit{x}_{i2}},\hat{\textit{x}_{i3}},\dots \hat{\textit{x}_{ik}} \right \} xi={xi1^,xi2^,xi3^,xik^} 其中 k k k称为样本的维度 x i j ^ \hat{\textit{x}_{ij}} xij^被称为样本的一条特征。其中样本张成的空间被称为样本空间,每一条特征张成的空间被称为每一个特征的特征空间。

模型的训练:从模型中学习得到数据信息的过程,训练过程中使用的数据集被称为训练集

第二章

经验误差和过拟合

误差:学习器实际预测输出同样本真实值之间的差距

经验误差:学习器在训练集上训练时留下的误差

过拟合:模型泛化性能降低的现象

评估方法

留出法:将数据集划分成两个互斥的子集,一个用作训练,另一个用作测试。

交叉验证:将数据集划分为 N N N 个互斥的子集,每次选取 N − 1 N-1 N1 个子集进行训练,剩下的进行测试。

自助法:从数据集 D D D 中自助采样获得一个样本拷贝放入数据集 D ′ D' D。通过m次采样,数据集 D ′ D' D 就包含了m个样本,将 D ′ D' D 用作训练集, D ∖ D ′ D \setminus D' DD用作测试集。

性能量度

均方误差:
E ( f ; D ) = 1 m ∑ i = 1 m ( f ( x i ) − y i ) 2 E(f;D)=\frac{1}{m} \sum^{m}_{i=1}\Big(f(x_i)-y_i\Big)^2 E(f;D)=m1i=1m(f(xi)yi)2

错误率:
E ( f ; D ) = 1 m ∑ i = 1 m I ( f ( x i ) ≠ y i ) E(f;D) = \dfrac{1}{m} \sum_{i=1}^m \mathbb{I}(f(\boldsymbol{x}_i) \ne y_i) E(f;D)=m1i=1mI(f(xi)=yi)

精度:
a c c ( f ; D ) = 1 m ∑ i = 1 m I ( f ( x i ) = y i ) = 1 − E ( f : D ) acc(f;D) = \dfrac{1}{m} \sum_{i=1}^{m} \mathbb{I}(f(\boldsymbol{x}_i) = y_i) \\ = 1 - E(f:D) acc(f;D)=m1i=1mI(f(xi)=yi)=1E(f:D)
在这里插入图片描述
查准率:
P = T P T P + F P P = \dfrac{TP}{TP + FP} P=TP+FPTP

查全率:
R = T P T P + F N R = \dfrac{TP}{TP + FN} R=TP+FNTP

在应用中, P P P R R R往往是一对矛盾的指标, P P P较高时, R R R往往偏低; R R R较高时 P P P又往往偏低。为了均衡 P P P R R R,前人提出了一种基于调和平均的指标。 F 1 F1 F1定义为 P P P R R R的调和平均数:
1 F 1 = 1 2 ⋅ ( 1 P + 1 R ) ⇒ F 1 = 2 × P × R P + R \dfrac{1}{F1} = \dfrac{1}{2} \cdot \left( \dfrac{1}{P} + \dfrac{1}{R}\right) \nonumber \\ \Rightarrow F1 = \dfrac{2 \times P \times R}{P + R} F11=21(P1+R1)F1=P+R2×P×R

在面向分类问题的模型中,由于模型的输出通常为各个类别的可能性,最终的输出结果为可能性最大的种类。当按照可能性大小顺序把样本作为正例预测,则经过每次预测都能得到相应的 P P P R R R值。以查准率-查全率为坐标进行绘图可以得到查准率-查全率曲线( P − R P-R PR曲线)。

在这里插入图片描述
模型的输出往往为一个来源于测试样本的实值或是概率预测,这时候会人为设定一系列的阈值进行分类。当输出的值大于或小于设定阈值时输出为正样例,反之则为反样例。当把模型的预测结果对样例进行排序时,按照该顺序逐个把样本作为正例进行预测,每次计算出真正例率(TPR)和假正率(FPR)分别作为纵坐标和横坐标就可以绘制出 R O C ROC ROC曲线。 R O C ROC ROC曲线下的面积值为 A U C AUC AUC指标。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值