机器学习西瓜书自学(不定期更新)

一直在学深度学习,尴尬的是对机器学习并不了解,因而参考西瓜书对机器学习做一个简单的整理(时间有限,部分内容个人觉得不重要,或学过,或后期可以再学,因而不做学习,也不总结上去)

第一章 基础知识

一:基础概念

NP问题:非确定性多项式难题:不能确定得到的多项式是否能真正解决问题
1.特征(feature)、 潜在的规律/真相(ground truth)2.二分类中:正反类(postive 、negative class)3.监督学习(supervised learning):分类和回归 、 无监督学习(unsupervised learning):聚类
4.机器学习目的:好的泛化能力(generalization)
5.独立同分布假设:所有样本服从一个未知分布。
6.错误率(error rate):错误的样本占比、精度(accuracy)1-错误率
7.分类精度"100%"往往效果不好,即过拟合(overfitting)  ---欠拟合(underfitting)
8.模型选择:选择泛化误差最小的模型,然而无法知道泛化误差。可知道的只有训练误差,而训练误差由于存在过拟合因而不适合作为标准。因而用测试误差(testing error)作泛化误差的近似.

二:数据集划分

1.要求:1.互斥(训练集与测试集不重合)2.数据分布一致性(分类任务中保证样本类别比例近似,即训练集与测试集类别比例近似)2.方法
  1.二分法(留出法,hold-out):一分为二、多次随机划分(划分训练集与测试集),取均值得训练结果。遗留问题:若训练集占比过大,测试集验证效果不够好,若测试集占比过大,训练结果不好(常划分比例为2/3-4/5)2.交叉验证法(cross validation):将数据集等比分成十份,用九份做训练,一份做验证,进行10次。
  3.自助法(bootstrapping):从样本中随机取出一个样本做训练(放回,取m次),则训练集有m个样本(可能重复),取极限得测试集有约1/e=36.8%的数据集未出现。
3.类别比例失调:
  1.再缩放:以二分类为例,若比例相同,则预测值t>T(阈值,0.5)为正例,若比例失调,则将阈值设为n/(n+m),n、m分别为正反例数目。
  2.欠采样:删去一些样本使得类别比例相似
  3.正采样:增加样本使得类别比例近似
  4.阈值移动:训练好的模型根据实际类别比例进行改动。

三:模型训练

1.将数据集划分为测试集和训练集训练模型后得到模型参数配置。实质上应再用整体数据集做训练集用该参数重新训练,再提交给客户。

四:性能度量

1.均方误差(多用于回归任务)、错误率、精度(分类)、查准率、查全率(检索任务)
2.ROC:受试者工作特征:用于判断模型泛化能力好坏。ROC曲线面积越大(AUC),性能越好(对比)(纵横坐标分别为真、假正例率)
真假正例率:郑例被判断为正例、 负例被判断为正例。
3.Precison(查准率):预测为正例的样本中真正正例的比例。
Recall(召回率):真正为正例的样本有多少被预测出来
4.这方面知识很多,不看

第二章:决策树

原理

思想:分而治之,判断类别是有多个决策因子,每个决策因子做一次判断,逐步判断下去,形成树状。因而是递归过程。递归返回(1.所有结点类别相同;2.属性集为空,即所有类别可能性相同,无法划分;3.样本集为空,无法划分)。对于情形2,标记为叶结点,并将其设定为该结点所含样本数最多的类别;(后验分布)对于情形3,标记为叶结点,设定为父类结点所含样本最多的类别(先验分布)
专业词:叶结点:分类的结果;根结点、内部结点:中间的

最优解:

判断:1.信息熵(ent),判断样本纯度(所含类别尽可能唯一),信息熵为信息量的统计,越小纯度越高。以二分法为例:信息熵为ent = -(p1log2p1+p2log2p2)
      2.信息增益,则为按照某一决策因子(假设决策因此会产生三种情况)进行分类,则增益gain = ent(D)-(D1ent(D1)/D+D2ent(D2)/D+D3ent(D3)/D);信息增益越大,纯度越大,利用信息增益作为准则进行分类划分。
      3.增益率(gain ratio):gain ratio = gain/a ;a = -{D1/Dlog2(D1/D)}求和,为定值,且分类数越大,a值越大。
      4.基尼指数,越小,分类纯度越高
      缺点:信息增益对可取值数较多的属性有所偏好,增益率对取值数小的有偏好

剪枝处理:缓解过拟合问题

1.预剪枝:生成过程中,对每个结点在划分前先估计,不能带来泛化提升,则设置为叶结点
   方法:将该结点的数据集分为训练集和验证集,用某一决策因子分类数据集,用验证集验证,若验证集的精度下降或不变,则该结点被标记为叶结点。
   优点:减少过拟合、提高分类速度。
   缺点:有些分支当前的划分虽不能带来泛化能力提升,但后续划分会带来性能显著提高,预剪枝的贪心原则禁止了这些分支的展开,可能带来欠拟合。
2.后剪枝:生成好的决策树,自下而上考察,替换为叶结点可带来泛化提升,则设置为叶结点
   方法:将叶结点上一结点设为叶结点,判断精度是否提高,提高改为叶结点。
   优点:欠拟合风险小,泛化能力强;
   缺点:时间开销大。
   缺失值处理:有缺失值是,只以无缺失值样本作为判断,信息熵按照舍去缺失值后样本数计算,信息增益需加上总测试集与无缺失值集的比例系数。

多变量决策树:

   分类器不是单一属性,而是多个属性的线性组合。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值