机器学习笔记(第一、二章)

机器学习(周志华著) Datawhale打卡第一天

第一章

定义

监督学习(supervised learning):分类与回归等算法,训练数据有标记

无监督学习(unsupervised learning):聚类等算法,训练数据无标记

NFL(No Free Lunch Theorem):假设问题函数均匀分布,那么预测训练集外的数据时的误差与学习算法无关(即如果假设所预测的问题是无偏好的,那么学习算法的选择将毫无意义)。

“从样例中学习”的常见流派
流派特点具体算法
符号主义基于明确逻辑表达式,假设空间太大,复杂度高决策树、ILP(Inductive Logic Programming)
连接主义基于神经网络,产生的是“黑箱模型”,缺乏严格理论基础神经网络
统计学习基于统计理论支持向量机(SVM)、核方法

第二章

定义

错误率(error rate):在m个样本中有a个分类错误,则错误率
E = a / m E=a/m E=a/m
精度(accuracy):1-错误率

误差(error):学习器的实际预测输出与样本的真实输出间的差异

经验误差(empirical error)/训练误差(training error):学习器在训练集上的误差

泛化误差(generalization error):在新样本上的误差

数据集划分方法

留出法:直接将数据集 D D D划分成两个互斥集合,训练集 S S S和测试集 T T T D = S ∪ T D=S\cup T D=ST S ∩ T = ∅ S\cap T=\emptyset ST=

交叉验证法:将数据集 D D D划分成k个大小相似的互斥子集,每个子集 D i D_i Di尽可能保持数据分布的一致性,每次取k-1个子集作为训练集,余下一个子集作为测试集,如此往复进行k次训练和验证

自助法(bootstrapping):包含m个样本的数据集 D D D,对它进行采样得到 D ′ D' D:每次从 D D D中随机挑选一个样本,拷贝放入 D ′ D' D中,再放回 D D D中,重复m次。样本在m次中始终不被取到的概率为 l i m m → ∞ ( 1 − 1 m ) m = 1 e ≈ 0.368 lim_{m\rightarrow\infty} (1-\frac{1}{m})^m=\frac{1}{e}\approx0.368 limm(1m1)m=e10.368,将 D − D ′ D-D' DD作为测试集

性能

均方误差(回归常用) E ( f ; D ) = 1 m ∑ i = 1 m ( f ( x i ) − y i ) 2 E(f;D)=\frac{1}{m}\sum_{i=1}^{m}(f(x_i)-y_i)^2 E(f;D)=m1i=1m(f(xi)yi)2

连续均方误差 E ( f ; D ) = ∫ x ∼ D f ( ( x ) − y ) 2 p ( x ) d x E(f;D)=\int_{x{\sim}D}f((x)-y)^2p(x)dx E(f;D)=xDf((x)y)2p(x)dx

错误率(二分类常用) E ( f ; D ) = 1 m ∑ i = 1 m I ( f ( x i ) ≠ y i ) E(f;D)=\frac{1}{m}\sum_{i=1}^{m}I(f(x_i)\neq y_i) E(f;D)=m1i=1mI(f(xi)=yi)

查准率 P = T P T P + F P P=\frac{TP}{TP+FP} P=TP+FPTP(其中 T P TP TP为真正例, F P FP FP为假正例)

查全率 R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP(其中 T P TP TP为真正例, F N FN FN为假反例)

泛化误差:定义方差
v a r ( x ) = E D [ ( f ( x ; D ) − f ‾ ( x ) ) ] var(x)=E_D[(f(x;D)-\overline{f}(x))] var(x)=ED[(f(x;D)f(x))]
噪声
ε 2 = E D [ ( y D − y ) 2 ] \varepsilon^2=E_D[(y_D-y)^2] ε2=ED[(yDy)2]
期望输出与真实标记的偏差
b i a s 2 ( x ) = ( f ‾ ( x ) − y ) 2 bias^2(x)=(\overline{f}(x)-y)^2 bias2(x)=(f(x)y)2
则泛化误差
E ( f ; D ) = b i a s 2 ( x ) + v a r ( x ) + ε 2 E(f;D)=bias^2(x)+var(x)+\varepsilon^2 E(f;D)=bias2(x)+var(x)+ε2

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

猪里程

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值