机器学习学习笔记 -（总览）

最新推荐文章于 2024-09-30 13:17:10 发布

二三TP

最新推荐文章于 2024-09-30 13:17:10 发布

阅读量402

点赞数

分类专栏：读书笔记文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_37779325/article/details/116236167

版权

读书笔记专栏收录该内容

11 篇文章 0 订阅

订阅专栏

第二章模型评估与选择

评估方法

留出法（常规方法，用2/3~4/5的样本作为训练集）
交叉验证（k-fold，均分k份，每次用1份当测试，跑k次）
自助法对于m个样本的数据集D，有放回地取出m个数作为训练集D’，会有1/e=0.368的数据没被取到，可以作为测试集，测试结果叫 “包外估计”

性能度量

查准率、查全率和F1
- 查准率
  $\frac{TP}{TP+FP}$
- 查全率
  $\frac{TP}{TP+FN}$
这俩是矛盾的
- F1
  $\frac{2 \times P \times R}{P+R} = \frac{2 \times TP}{样例总数+TP-TN}$
ROC和AUC
ROC曲线：纵轴真正例率TPR、横轴假正例率FPR
$\frac{TP}{TP+FN}$

$\frac{FP}{FP+TN}$
AUC：ROC曲线下的面积

ROC：ROC曲线对测试数据集分布不敏感，能够避免不同测试集带来的干扰，更加客观的衡量模型本身的性能；如果想要看模型在某个特定数据集上的性能，则P-R曲线能够更加直观的反映其性能。

AUC：ROC曲线的面积，一般在ROC曲线在y=x上方，所以AUC在0.5-1之间，若相反则可以把模型的正负样本输出对换，可以得到一个更好的分类器

第三章线性模型

对应《统计学习方法》中的第6章

线性回归 LR

推导

对数几率回归（逻辑斯蒂logistic回归）

公式

$\frac{1}{1 + e^{-(w^Tx+b)}}$

=> $ln\frac{y}{1-y} = w^Tx+b$

进一步可推（把y当做 $p (y = 1 ∣ x)$ ）

想最大化对数似然

就要最小化

可以用梯度下降法、牛顿法等优化。
牛顿法的更新公式：

（一阶导数除以二阶导数）

参考https://blog.csdn.net/michaelhan3/article/details/82350047
这是个分类学习方法，输出的是近似概率
为什么逻辑回归用的是sigmoid？
- 简单来说，伯努利分布函数属于指数族分布，可写为其公式形式，然后对照之后，能够推导出sigmoid
  
  参考链接：https://zhuanlan.zhihu.com/p/59137998
- 还一种说法是根据最大熵模型推导求解得出

最大熵模型

对偶函数极大化等价于最大熵模型的极大似然估计

最大熵原理认为，学习概率模型时，在所有可能的概率模型中，熵最大的模型时最好的模型。

我们从最大熵的思想出发得出的最大熵模型，最后的最大化求解就是在求P(y|x)的对数似然最大化。逻辑回归也是在求条件概率分布关于样本数据的对数似然最大化。二者唯一的不同就是条件概率分布的表示形式不同。

逻辑回归跟最大熵模型没有本质区别。逻辑回归是最大熵对应类别为二类时的特殊情况，也就是当逻辑回归类别扩展到多类别时，就是最大熵模型。

二项式分布的最大熵解等价于二项式指数形式(sigmoid)的最大似然；
多项式分布的最大熵等价于多项式分布指数形式(softmax)的最大似然。

第十一章特征选择与稀疏学习

l1和l2

L1正则化可以产生稀疏权值矩阵，即产生一个稀疏模型，可以用于特征选择
L2正则化可以防止模型过拟合（overfitting）；一定程度上，L1也可以防止过拟合
https://blog.csdn.net/jinping_shi/article/details/52433975
为什么L1和L2正则化可防止过拟合，讲的很清晰：https://zhuanlan.zhihu.com/p/85630046
也可以看看视频讲解：https://www.bilibili.com/video/BV1aE411L7sj

第四章决策树

决策树的三个重点：特征选择、构造决策树、决策树的修剪
三种决策树：ID3、C4.5、CART

基本流程

决策树生成是一个递归过程，三种情形会导致递归返回：

ID3

特征选择的方法是 信息增益
信息增益越大表示使用这个特征来划分所获得的纯度提升越大
缺点：
- ID3 没有剪枝策略，容易过拟合；
- 信息增益准则对可取值数目较多的特征有所偏好，类似“编号”的特征其信息增益接近于 1；
- 只能用于处理离散分布的特征；
- 没有考虑缺失值。
信息熵

信息熵越小，纯度越高
信息增益

信息增益最大的那个属性被选做划分属性

C4.5

特征选择的方法是 信息增益率，克服了ID3对特征数目的偏重这一缺点
1. 增益率
  为了应对“编号”这种纯度最大的属性，其不具有泛化能力。
  信息增益对可取值数目较多的属性有偏好，增益率对可取值数目较少的有所偏好。
2. C4.5算法不是直接选择增益率最大的属性作为划分属性，而是使用一个启发式，先找到信息增益高于平均水平的，然后从中选择增益率最高的

CART(classfication and regression tree, 分类与回归树)

构造准则
分类问题的构造准则为基尼指数
回归问题的构造准则为最小二乘法

基尼值
在这里插入图片描述

 反映随意从样本集中抽取两个样本，其类别标记不一致的概率，以此来度量纯度。基尼值越小越好。

基尼指数

基尼指数最小的作为划分属性
剪枝处理
- 剪枝（Pruning）：是决策树学习算法对付过拟合的主要手段。有时决策树分支过多可能将训练样本学的太好了，因此需要去掉一些分支。基本策略有：预剪枝和后剪枝。是否过拟合（泛化性能）的度量标准：验证集精度。
- 预剪枝（Prepruning）：在构造过程中先评估，再考虑是否分支。若当前节点的划分不能带来决策树泛化性能提升，则停止划分。
  - 验证集精度：因为“在划分之前所有样例集中在根结点，若不进行划分，根据算法该节点将被标记为叶结点，类别标记为训练样例数最多的类别（最多类不唯一可以任选一类）”。根据这个规则我们将于划分前的验证集精度与划分后验证集精度比较，若后大于前，则不剪掉。
  - 一颗只有一层划分的决策树称为决策树桩（Decision Stump）。
  - 预剪枝基于贪心本质，会使很多分支没有展开，可能会带来欠拟合风险。
- 后剪枝（Postpruning）：在构造好的一颗完整的决策树，自底向上，评估分支的必要性。
  - 验证集精度：后剪枝也是度量剪之前和剪之后的验证集精度大小决定是否剪枝。（eg 若将分支剪除，则相当于把该分支结点替换成叶子结点，该分支以下的类别都要被标记成多数类，这样比原先的精度会好还是会差？若好则剪）
  - 一般情形下，后剪枝决策树的欠拟合风险很小，泛化性能往往优于预剪枝决策树；因其在生成决策树之后进行，并且自底向上注意考察，训练时间开销是最大的。
连续值处理
- 二分法进行离散化，得到众多属性，计算信息增益，找到最大的那个作为划分点
- C4.5用了
缺失值处理
- C4.5用了
为什么树模型在面对高维稀疏数据时效果比LR差

在模型都普遍带有正则项时，LR是不让权重W过大，而树控制的是深度、叶节点数量，当在高维系数数据中，某类样本刚好在某一维特征上都是1，而因为稀疏性，其他样本都是0，这样就导致树很容易根据这个维度将样本分为两类，导致在测试集上效果变差，即容易过拟合。而对于LR模型，如果针对这个维度的W特别大会被正则修正。