机器学习笔记（第一、二章）

最新推荐文章于 2022-06-21 13:04:18 发布

猪里程

最新推荐文章于 2022-06-21 13:04:18 发布

阅读量316

点赞数

文章标签：机器学习算法人工智能

本文链接：https://blog.csdn.net/qq_33451915/article/details/122443163

版权

机器学习（周志华著） Datawhale打卡第一天

第一章

定义

监督学习(supervised learning)：分类与回归等算法，训练数据有标记

无监督学习(unsupervised learning)：聚类等算法，训练数据无标记

NFL(No Free Lunch Theorem)：假设问题函数均匀分布，那么预测训练集外的数据时的误差与学习算法无关（即如果假设所预测的问题是无偏好的，那么学习算法的选择将毫无意义）。

“从样例中学习”的常见流派

流派	特点	具体算法
符号主义	基于明确逻辑表达式，假设空间太大，复杂度高	决策树、ILP(Inductive Logic Programming)
连接主义	基于神经网络，产生的是“黑箱模型”，缺乏严格理论基础	神经网络
统计学习	基于统计理论	支持向量机(SVM)、核方法

第二章

定义

错误率(error rate)：在m个样本中有a个分类错误，则错误率
$E = a / m$
精度(accuracy)：1-错误率

误差(error)：学习器的实际预测输出与样本的真实输出间的差异

经验误差(empirical error)/训练误差(training error)：学习器在训练集上的误差

泛化误差(generalization error)：在新样本上的误差

数据集划分方法

留出法：直接将数据集 $D$ 划分成两个互斥集合，训练集 $S$ 和测试集 $T$ ， $D=S\cup T$ ， $S\cap T=\emptyset$

交叉验证法：将数据集 $D$ 划分成k个大小相似的互斥子集，每个子集 $D_i$ 尽可能保持数据分布的一致性，每次取k-1个子集作为训练集，余下一个子集作为测试集，如此往复进行k次训练和验证

自助法(bootstrapping)：包含m个样本的数据集 $D$ ，对它进行采样得到 $D^{'}$ ：每次从 $D$ 中随机挑选一个样本，拷贝放入 $D^{'}$ 中，再放回 $D$ 中，重复m次。样本在m次中始终不被取到的概率为 $lim_{m\rightarrow\infty} (1-\frac{1}{m})^m=\frac{1}{e}\approx0.368$ ，将 $D - D^{'}$ 作为测试集

性能

均方误差（回归常用）： $E(f;D)=\frac{1}{m}\sum_{i=1}^{m}(f(x_i)-y_i)^2$

连续均方误差： $E(f;D)=\int_{x{\sim}D}f((x)-y)^2p(x)dx$

错误率（二分类常用）： $E(f;D)=\frac{1}{m}\sum_{i=1}^{m}I(f(x_i)\neq y_i)$

查准率： $P=\frac{TP}{TP+FP}$ （其中 $T P$ 为真正例， $F P$ 为假正例）

查全率： $R=\frac{TP}{TP+FN}$ （其中 $T P$ 为真正例， $F N$ 为假反例）

泛化误差：定义方差
$var(x)=E_D[(f(x;D)-\overline{f}(x))]$
噪声
$\varepsilon^2=E_D[(y_D-y)^2]$
期望输出与真实标记的偏差
$bias^2(x)=(\overline{f}(x)-y)^2$
则泛化误差
$E(f;D)=bias^2(x)+var(x)+\varepsilon^2$

猪里程

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习笔记（第一、二章）

机器学习（周志华著） Datawhale打卡第一天第一章定义监督学习(supervised learning)：分类与回归等算法，训练数据有标记无监督学习(unsupervised learning)：聚类等算法，训练数据无标记NFL(No Free Lunch Theorem)：假设问题函数均匀分布，那么预测训练集外的数据时的误差与学习算法无关（即如果假设所预测的问题是无偏好的，那么学习算法的选择将毫无意义）。“从样例中学习”的常见流派流派特点具体算法符号主义基于明确
复制链接

扫一扫