机器学习学习笔记-西瓜书

最新推荐文章于 2024-01-09 23:13:34 发布

龙海L

最新推荐文章于 2024-01-09 23:13:34 发布

阅读量759

点赞数

分类专栏：机器学习 python 算法文章标签：算法 python

本文链接：https://blog.csdn.net/qq_36523203/article/details/105802247

版权

本文详细介绍了机器学习中的各种模型和评估方法，包括线性模型、决策树、神经网络、支持向量机等，强调了模型评估的重要性，如交叉验证、误差函数等。此外，还探讨了集成学习如AdaBoost、Bagging和随机森林，以及半监督学习的应用。最后，提到了概率图模型和强化学习等高级主题。

摘要由CSDN通过智能技术生成

#西瓜书笔记

模型评估和选择

一,经验误差与过拟合
学习器在训练集上的误差称为“训练误差”或“经验误差”，在测试集上的误差称为“泛化误差”；
训练误差大，则造成欠拟合，而训练误差小而泛化误差大造成过拟合
二，评估方法
测试集应该尽可能与训练集互斥
“留出法”将数据集D划分为两个互斥的集合，其中一个作为训练集S，另一个作为测试集T。保留类别比例的采样方式通常称为“分层采样”，使用留出法时，一般要采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果，留出法的问题在于不好确定划分训练集合测试集的比例。

“交叉验证法”cross validation，先将数据集D划分为k个大小相似的互斥子集，每个子集都尽可能保持数据分布的一致性，即从D中通过分层采样得到，然后每次用k-1个子集的并集作为训练集，余下的那个子集作为测试集，这样就可以获得k组训练\测试集，从而进行k次训练和测试，最终返回的是这k个测试结果的均值，交叉验证法评价结果的稳定性和保真性在很大程度上取决于k的取值。假定数据集D中包含m个样本，若另k=m，则得到了交叉验证法的一个特例，留一法（Leave-One-Out，简称LOO），留一法的缺陷在于数据集比较大时，训练m个模型的计算开销可能是难以忍受的。使用较多

“自助法”直接以自助采样法为基础，给定包含m个样本的数据集D，对它采样产生数据集D‘：每次随机从D中挑选一个样本，将其拷贝放入D’，然后再将该样本放回初始数据集D中，使得该样本在下次采样时仍有可能被采到，重复上述过程m次后，得到了包含m个样本的数据集D’，自助法在数据集较小、难以有效划分训练\测试集时很有用。

一般地，用测试集上的判别效果来估计模型在实际使用时的泛化能力，而把训练数据另外划分为训练集和验证集，基于验证集上的性能来进行模型选择和调参。
三.分类器评估标准
结果存在四种：TP（真正）,FN(真的判成假的)，FP（假的判别成真的）,TN。几种常用指标：
精度:precision=TP/(TP+FP)
召回率：recall=TP(TP+FN)
F1：2/F1=1/recall+1/precison
ROC曲线：ROC 空间是一个以伪阳性率（FPR，false positive rate）为 X
轴，真阳性率（TPR, true positive rate）为 Y 轴的二维坐标系所代表的平
面。其中真阳率 TPR = TP / P = recall，伪阳率 FPR = FP / N
ROC曲线代表的意义：曲线与FPR围成的轴面积**（AUC面积）**越大性能越好。真阳性率大，伪阳性低
四，偏差与方差
期望预测为： $KaTeX parse error: Expected group after '^' at position 2: f^̲'(x)=E_{D}[f(x)…$
使用样本数量相同，不同训练集产生的方差为： $KaTeX parse error: Expected group after '^' at position 12: E[(f(x,D)-f^̲'(x,D))^2]$
噪声为=E[(y_{D}-y)^2]
期望输出与真实标记的差别为偏差：bias= $KaTeX parse error: Expected group after '^' at position 3: (f^̲'-y)^2$
泛化误差可分解为偏差、方差与噪声之和。偏差度量了学习算法的期望预测与真实结果的偏离程度，即预测了学习算法本身的拟合能力；方差度量了同样大小的训练集的变动所导致的学习性能的变化，即刻画了数据扰动所造成的影响；噪声则表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界，即刻画了学习问题本身的难度。泛化性能是由学习任务，为了取得好的泛化性能，则需使偏差较小，即能够充分拟合数据，并且使方差较小，即使得数据扰动产生的影响小。

线性模型

一.线性回归主要解决回归问题
线性函数的一般式： $f(x)=k_{1}x_{1}+...+k_{n}x_{n}+b$
其中 $x=(x_{1},x_{2},x_{3},x_{4}...x_{d})$ 是有d个属性的示例，一般用向量形式写成： $f(x)=w^Tx+b$
注意：在线性模型的基础上引入层级结构或高位映射可以得到许多功能更为强大的非线性模型
思想：通过对样本的学习，在样本所在的空间中找到一条直线满足所有的样本距离直线的欧几里都距离最小，找到最合适的w和b，采用最小二乘法
广义线性模型：
二.对数线性回归
$y=g(w^Tx_{i}+b)$ g()为联系函数，如 $l n ()$ ,形式虽然是线性回归，实际求出的是输入空间到输出空间的线性映射
**三，逻辑回归 **
也称为对数几率回归， $y=1/(1+e_{-z})$ ,其中Z满足线性模型 $z = w x + b$ ,将输出投射到0-1,考虑到二分类模型
四，线性判别分析 LDA
在二分类问题上最早由Fisher 提出，称为“Fisher判别分析 ”。思想很朴素：将训练样例集投影到一条直线上，使得同类样本的投影点尽可能接近，而异样样例的投影点尽可能远离；
五，多分类学习的策略
三种：一对一一对余多对多
多对多(M V M)：每次将若干类作为正类，若干其他类作为反类。多对多的正，反类的构造必须有特殊的设计，不能随机选取。常用的技术：“纠错输出码”，工作过程主要分为两步：编码：对N个类别划分M次，每次划分将一部分划为正，，一部分为负，从而形成一个二分类器，这样一共产生M个训练集，可以训练出M个分类器，类别编码：该类别在每个分类器的类组成的编码
解码：M 个分类器分别对测试样本进行预测，这些预测标记组成一个编码.将这个预测编码与每个类别各自的编码进行比较，返回其中距离最小的类别作为最终预测结果.
六.类别不平衡问题
为实现“再缩放”
1.欠采样，使得正反样本数目相近
2.过采样，增加少的，使得数目相近
3,增加决策权重

决策树

缺失值处理

神经网络

支持向量机

1.推导过程！！！！
目的：在样本空间中获取最佳划分超平面，在样本空间中，划分超平面可通过线性方程来描述： $w^Tx+b=0$ ,其中 $w$ 为法向量，决定了平面的方向 $b$ 为位移项决定了超平面与原点之间的距离。样本空间中任意一点 $x$ 到超平面 $(w, b)$ 的距离为** $r=\frac{|w^Tx+b|}{||w||}$ **
假设超平面能够将训练样本正确分类，即对于 $x_{i},y_{i})$ ,若 $y_{i}=+1$ ,则有 $w^Tx_{i}+b>0$ ;若 $y_{i}=-1$ ,则有 $w^Tx_{i}+b<0$ .令分类超平面满足
$y_{i}=1$ 时 $w^Tx_{i}+b>=1$ , $y_{i}=-1$ 时， $w^Tx_{i}+b<=-1$ ,所以最近的支持向量到超平面的距离和为: $\gamma=\frac{2}{||w||}$ ,它是找最优分类平面的目标函数，同时具有约束函数满足：
$y_{i}(w^Tx_{i }+b)>=1，i=1,2,3,...m$
对偶问题,求解函数
$w$ 和 $b$ 是函数参数，目标函数本身是一个凸二次规划，使用拉格朗日函数法，得到目标函数的对偶问题，则该问题的拉格朗日函数可写为：
$L(w,b,a)=\frac{1}{2}||w||^2+\sum_{i=1}^ma_{i}(1-y_{i}(w^Tx_{i}+b))$
其中， $a=(a_{1};...a_m)$ ,令函数 $L (w, b, a)$ 对 $w$ 和 $b$ 求偏导为零可得：
$w=\sum_{i=1}^ma_{i}y_{i}x_{i}$
$0=\sum_{i=1}^ma_{i }y_{i}$
将两个的结果代入拉格朗日函数，即可消除 $w$ 和 $b$ ，最后的到原始问题的对偶问题：
$max\sum_{i=1}^ma_i-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^ma_ia_jy_iy_jx_{i}^Tx_{j}$