【吃瓜笔记】第一章&第二章

一、基本术语

在此术语不做解释,自行回忆,如果想不起来就去翻看资料回顾

  • 示例/特征向量/样本

  • 属性/特征

  • 属性空间/样本空间/输入空间

  • 学习/训练

  • 训练样本/训练集

  • 学得模型/假设

  • 标记/样例/标记空间/输出空间

  • 分类/回归

  • 二分类(正类/反类)/多分类

  • 测试/测试样本

  • 聚类/簇

  • 监督学习/无监督学习

    划分依据:___________

  • 泛化能力

  • 归化/演绎:一般、特殊

  • 概念学习/概念形成

  • 版本空间

  • 归纳偏好/偏好

  • 奥卡姆剃刀

  • “没有免费的午餐”定理/NFL

  • 错误率/精度/误差/训练误差/泛化误差

  • 过拟合/欠拟合:无法彻底避免的是?

  • 验证集

  • 性能度量

  • 查准率/查全率

  • 真正例/假反例/真反例/假反例

二、模型评估与选择

1、评估方法

(1)、留出法

bold-out 直接将数据集D划分为两个互斥的集合,分别作为训练集S、测试集T D = S ∪ T D=S\cup T D=ST S ∩ T = ∅ S \cap T = \emptyset ST=

需要注意的是,训练/测试集的划分要尽可能保持数据分布的一致性,避免因数据划分引入额外的偏差而对最终结果产生影响

分层采样:在划分过程保留类别比例的采样方式

单次使用留出法得到的估计结果往往不够稳定可靠,在使用留出法时,一般要采用若干次随即划分、重复进行实验评估后取平均值作为留出法的评估结果

(2)、交叉验证法

将数据集D划分为k个大小相似的互斥子集,每一个子集都尽可能保持数据分布的一致性。每次使用k-1个子集的并集作为训练集,余下的那个子集作为测试集。最后返回这k个测试结果的均值。

交叉验证评估结果的稳定性和保真性在很大程度上取决于k的取值,“k折交叉验证”(k-fold cross validation)

(3)、自助法

以自助采样为基础,给定包含m个样本的数据,有放回的随机从数据集D进行采样,并将之放在D‘,重复m次后获得一个包含m个样本的数据集D‘

样本在m次采样中始终不被采到的概率: lim ⁡ m → ∞ ( 1 − 1 m ) m = 1 e ≈ 0.368 \lim_{m \to \infty}(1-\frac{1}{m})^{m}= \frac{1}{e} \approx0.368 limm(1m1)m=e10.368

包外估计:使用数据集中为出现在训练集中的数据测试得到的结果

自助法在数据集较小、难以有效划分训练/测试集时很有用,从促使数据集产生多个不同的训练集,这对集成学习等方法有很大的好处,但是这种方法也会引入估计偏差。

2、选择依据

(1)、性能度量

衡量模型泛化能力的评价标准

回归任务最常用的性能度量:均方误差
E ( f ; D ) = 1 m ∑ i = 1 m ( f ( x i ) − y i ) 2 E(f;D) = \frac{1}{m} \sum_{i=1}^{m}(f(x_{i})-y_{i})^{2} Ef;D)=m1i=1m(f(xi)yi)2
对于数据分布 D D D和概率密度函数 p ( ⋅ ) p(·) p()均方差:
E ( f ; D ) = ∫ x ~ D ( f ( x ) − y ) 2 p ( x ) d x E(f;D)= \int_{x~D}(f(x)-y)^{2}p(x)dx E(f;D)=xD(f(x)y)2p(x)dx

1)、错误率与精度

错误率
离散: E ( f ; D ) = 1 m ∑ i = 1 m I ( f ( x i ) ≠ y i ) 连续: E ( f ; D ) = ∫ x ∼ D I ( f ( x ) ≠ y ) p ( x ) d x 离散:E(f;D)= \frac{1}{m} \sum_{i=1}^{m} \mathbb I (f(x_{i}) \neq y_{i}) \\ 连续:E(f;D)=\int_{x \sim D}\mathbb I (f(x) \neq y)p(x)dx 离散:E(f;D)=m1i=1mI(f(xi)=yi)连续:E(f;D)=xDI(f(x)=y)p(x)dx
精度
离散: a c c ( f ; D ) = 1 m ∑ i = 1 m I ( f ( x i ) = y i ) = 1 − E ( f ; D 连续: a c c ( f ; D ) = ∫ x ∼ D I ( f ( x ) = y ) p ( x ) d x = 1 − E ( f ; D ) \begin{equation}\begin{split} 离散:acc(f;D) &= \frac{1}{m} \sum_{i=1}^{m} \mathbb I (f(x_{i})=y_{i}) \\ &=1-E(f;D\\ 连续:acc(f;D) &= \int_{x \sim D} \mathbb I (f(x)=y)p(x)dx\\ &= 1-E(f;D) \end{split}\end{equation} 离散:acc(f;D)连续:acc(f;D)=m1i=1mI(f(xi)=yi)=1E(f;D=xDI(f(x)=y)p(x)dx=1E(f;D)


2)、查准率P、查全率R与 F 1 F1 F1

分类结果混淆矩阵

查准率: P = T P T P + F P 查全率: R = T P T P + F N 查准率 :P = \frac{TP}{TP+FP}\\ 查全率 :R = \frac{TP}{TP+FN} 查准率:P=TP+FPTP查全率:R=TP+FNTP

  • 一般来说,查全率高时,查准率往往偏低;查准率高时,查全率往往偏低。

  • “P-R曲线”:以为查准率纵轴、查全率为横轴作图,就得到了查准率-查全率曲线

    若学习器的P-R曲线被另一个学习器的曲线完全“包住”,则可以断言后者性能优于前者

  • “平衡点(Break-Even Point,BEP):查准率=查全率时的取值。

  • F 1 F1 F1是基于查全率与查准率的调和平均值定义的

    F 1 F1 F1度量的一般形式:
    F β = ( 1 + β 2 ) × P × R ( β 2 × P ) + R F_{\beta}= \frac{(1+{\beta}^2) \times P \times R}{({\beta}^2 \times P)+R}\\ Fβ=(β2×P)+R(1+β2)×P×R

  • 宏查全率/宏查准率/宏 F 1 F1 F1

  • 微查全率/微查准率/微 F 1 F1 F1

3)、ROC与AUC

ROC全称为“受试者工作特性”(Receiver Operating Characteristic)曲线

  • ROC曲线的纵轴是“真正例率”(TPR),横轴是“假正例率”(FPR)

T P R = T P T P + F N F P R = F P T N + F P TPR= \frac{TP}{TP+FN}\\ FPR= \frac{FP}{TN+FP} TPR=TP+FNTPFPR=TN+FPFP

  • ROC曲线图对角线对应于“随机猜测模型”,(0,1)对应于将所有正例排在所有反例之前的“理想模型”

  • 与“P-R曲线”相似,若学习器的ROC曲线被另一个学习器的曲线完全“包住”,则可以断言后者性能优于前者

AUC(Area Under ROC Curve)是指ROC曲线下的面积

A U C = 1 − l r a n k l r a n k = 1 m + + m − ∑ x + ∈ D + ∑ x − ∈ D − ( I ( f ( x + ) < f ( x − ) ) + 1 2 I ( f ( x + ) = f ( x − ) ) ) AUC = 1-l_{rank}\\ l_{rank}= \frac{1}{{m}^+ +{m}^-} \sum_{{x}^+ \in {D}^+} \sum_{{x}^- \in {D}^-}(\mathbb I (f(x^+) < f(x^-))+ \frac{1}{2} \mathbb I (f(x^+) = f(x^-))) AUC=1lranklrank=m++m1x+D+xD(I(f(x+)<f(x))+21I(f(x+)=f(x)))

l r a n k l_{rank} lrank在几何意义上可以看作ROS曲线与y轴围成的面积


4)、代价敏感错误和代价曲线

为权衡不同类型错误造成的不同损失,可为错误赋予“非均等代价(unequal cost),以此达成“总体代价”(total cost)最小化。

代价曲线,横轴为正例概率代价(取值为[0,1]),纵轴为归一化代价(取值为[0,1])。ROC曲线上每一点对应了代价平面上的一条线段,将ROC曲线上的每个点转为代价平面上的一条线段,然后取所有曲线的下界,围成的面积即为在所有条件下学习器的期望总体代价。

(2)、比较检验

统计假设检验(hypothesis test)

假设检验中的“假设”是对学习器泛化错误率分布的某种判断或猜想

“t检验”

双边假设

交叉验证t检验

McNemar检验

Friendman检验和Nemenyi后续检验

(3)、偏差与方差

泛化误差可分解为偏差、方差和噪音之和
E ( f ; D ) = b i a s 2 ( x ) + v a r ( x ) + ϵ 2 E(f;D)= bias^2(x)+var(x)+ \epsilon^2 E(f;D)=bias2(x)+var(x)+ϵ2

方差:
v a r ( x ) = E D [ ( f ( x ; D ) − f ‾ ( x ) ) 2 ] var(x) = \mathbb{E}_{D} [(f(x;D)- \overline f(x))^2] var(x)=ED[(f(x;D)f(x))2]
噪音:
ϵ 2 = E D [ ( y D − y ) 2 ] \epsilon^2 = \mathbb{E}_{D} [(y_{D}-y)^2] ϵ2=ED[(yDy)2]
偏差:期望输出与真实标记的差别
b i a s 2 ( x ) = ( f ‾ ( x ) − y ) 2 bias^2(x) = (\overline f (x)-y)^2 bias2(x)=(f(x)y)2
偏差-方差窘境

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值