机器学习西瓜书自学(不定期更新)_西瓜书怎么学习-CSDN博客

本文链接：https://blog.csdn.net/lzmsxf/article/details/118355593

一直在学深度学习，尴尬的是对机器学习并不了解，因而参考西瓜书对机器学习做一个简单的整理(时间有限，部分内容个人觉得不重要，或学过，或后期可以再学，因而不做学习，也不总结上去)

第一章基础知识

一：基础概念

NP问题：非确定性多项式难题：不能确定得到的多项式是否能真正解决问题
1.特征(feature)、 潜在的规律/真相(ground truth)、
2.二分类中：正反类(postive 、negative class)、
3.监督学习(supervised learning):分类和回归 、 无监督学习(unsupervised learning):聚类
4.机器学习目的：好的泛化能力(generalization)
5.独立同分布假设：所有样本服从一个未知分布。
6.错误率(error rate)：错误的样本占比、精度(accuracy)：1-错误率
7.分类精度"100%"往往效果不好，即过拟合(overfitting)  ---欠拟合(underfitting)
8.模型选择：选择泛化误差最小的模型，然而无法知道泛化误差。可知道的只有训练误差，而训练误差由于存在过拟合因而不适合作为标准。因而用测试误差(testing error)作泛化误差的近似.

二：数据集划分

1.要求：1.互斥(训练集与测试集不重合)2.数据分布一致性(分类任务中保证样本类别比例近似,即训练集与测试集类别比例近似)。
2.方法
  1.二分法(留出法，hold-out)：一分为二、多次随机划分(划分训练集与测试集)，取均值得训练结果。遗留问题：若训练集占比过大，测试集验证效果不够好，若测试集占比过大，训练结果不好(常划分比例为2/3-4/5)。
  2.交叉验证法(cross validation)：将数据集等比分成十份，用九份做训练，一份做验证，进行10次。
  3.自助法(bootstrapping)：从样本中随机取出一个样本做训练(放回，取m次)，则训练集有m个样本(可能重复)，取极限得测试集有约1/e=36.8%的数据集未出现。
3.类别比例失调：
  1.再缩放：以二分类为例，若比例相同，则预测值t>T(阈值，0.5)为正例，若比例失调，则将阈值设为n/(n+m)，n、m分别为正反例数目。
  2.欠采样:删去一些样本使得类别比例相似
  3.正采样：增加样本使得类别比例近似
  4.阈值移动：训练好的模型根据实际类别比例进行改动。

三：模型训练

1.将数据集划分为测试集和训练集训练模型后得到模型参数配置。实质上应再用整体数据集做训练集用该参数重新训练，再提交给客户。

四：性能度量

1.均方误差(多用于回归任务)、错误率、精度(分类)、查准率、查全率(检索任务)
2.ROC：受试者工作特征：用于判断模型泛化能力好坏。ROC曲线面积越大(AUC)，性能越好(对比)。(纵横坐标分别为真、假正例率)
真假正例率：郑例被判断为正例、 负例被判断为正例。
3.Precison（查准率）：预测为正例的样本中真正正例的比例。
Recall（召回率）：真正为正例的样本有多少被预测出来
4.这方面知识很多，不看

第二章：决策树

原理

思想：分而治之,判断类别是有多个决策因子，每个决策因子做一次判断，逐步判断下去，形成树状。因而是递归过程。递归返回(1.所有结点类别相同；2.属性集为空，即所有类别可能性相同，无法划分；3.样本集为空，无法划分)。对于情形2，标记为叶结点，并将其设定为该结点所含样本数最多的类别；(后验分布)对于情形3，标记为叶结点，设定为父类结点所含样本最多的类别(先验分布)
专业词：叶结点：分类的结果；根结点、内部结点：中间的

最优解：

判断：1.信息熵(ent),判断样本纯度(所含类别尽可能唯一)，信息熵为信息量的统计，越小纯度越高。以二分法为例：信息熵为ent = -(p1log2p1+p2log2p2)
      2.信息增益，则为按照某一决策因子(假设决策因此会产生三种情况)进行分类，则增益gain = ent(D)-(D1ent(D1)/D+D2ent(D2)/D+D3ent(D3)/D)；信息增益越大，纯度越大，利用信息增益作为准则进行分类划分。
      3.增益率(gain ratio)：gain ratio = gain/a ；a = -{D1/Dlog2(D1/D)}求和，为定值，且分类数越大，a值越大。
      4.基尼指数，越小，分类纯度越高
      缺点：信息增益对可取值数较多的属性有所偏好，增益率对取值数小的有偏好

剪枝处理：缓解过拟合问题

1.预剪枝：生成过程中，对每个结点在划分前先估计，不能带来泛化提升，则设置为叶结点
   方法：将该结点的数据集分为训练集和验证集，用某一决策因子分类数据集，用验证集验证，若验证集的精度下降或不变，则该结点被标记为叶结点。
   优点：减少过拟合、提高分类速度。
   缺点：有些分支当前的划分虽不能带来泛化能力提升，但后续划分会带来性能显著提高，预剪枝的贪心原则禁止了这些分支的展开，可能带来欠拟合。
2.后剪枝：生成好的决策树，自下而上考察，替换为叶结点可带来泛化提升，则设置为叶结点
   方法：将叶结点上一结点设为叶结点，判断精度是否提高，提高改为叶结点。
   优点：欠拟合风险小，泛化能力强；
   缺点：时间开销大。
   缺失值处理:有缺失值是，只以无缺失值样本作为判断，信息熵按照舍去缺失值后样本数计算，信息增益需加上总测试集与无缺失值集的比例系数。

多变量决策树：

   分类器不是单一属性，而是多个属性的线性组合。

机器学习西瓜书自学(不定期更新)

第一章 基础知识

第二章：决策树

第一章基础知识