机器学习初步-笔记

第一章-绪论

1.1教材

在这里插入图片描述

1.2课程定位

  • 搞清楚是什么为什么这么做

1.3机器学习

  • 利用经验改善系统自身的性能,目前主要研究智能数据分析的理论和方法

1.4典型的机器学习过程

  • “好瓜、坏瓜”是一个西瓜样例的类别标记
    在这里插入图片描述

1.5计算学习理论

  • x是输入数据,f是模型;y是预测值|f(x)-y|<=ε,P(|f(x)-y|)>=1-δ,δ绝对小并且1-δ接近1,表示概率P的值绝对准;PAC概率近似正确。
    在这里插入图片描述

1.6基本术语

  • 输出结果不知道就是无监督学习。泛化:学到的数据,再处理新数据的能力,就是指ε 到底可以达到多少。
  • 示例:一行样本的各个属性值(特征值)
  • 样例:好瓜
  • 假设:学到的模型f(x)
    在这里插入图片描述

1.7归纳偏好

  • 偏置,对某种东西有特殊的喜好,若非必要,勿增实体
  • 奥卡姆剃刀 原则:若有多个假设与观察一致,则选最简单的那个

1.8NFL定理

在这里插入图片描述

第二章-模型评估与选择

2.1泛化能力

  • 错误率低,精度高;对新的数据的处理能力强。

2.2过拟合和欠拟合

  • 泛化误差:在“未来”样本上的误差
  • 经验误差:在训练集.上的误差,亦称“训练误差”
  • 过拟合:就是训练集训练过度,新的样本预测能力差
  • 欠拟合:就是训练集训练不好,新的样本预测能力也差

2.3三大问题

  • 如何获得测试结果?评估方法
  • 如何评估性能优劣?性能度量
  • 如何判断实质差别?比较检验

2.4评估方法

  • 如何将测试集和验证集分割;注意原始数据集应该互斥

留出法(hold-out)

  • 保持数据分布一致性( 例如:分层采样)
  • 多次重复划分(例如: 100次随机划分)
  • 测试集不能太大、不能太小(例如: 1/5~1/3) .
  • 存在缺点:不能每个样本都测试到,会遗漏样本

交叉验证法(cross validation)

  • k-折交叉验证
    在这里插入图片描述
  • 存在缺点:如果男女性别的测试,测试精度就会不准

自助法(bootstrap):有放回采样

在这里插入图片描述

2.5调参与验证集

在这里插入图片描述

2.6性能度量

  • 均方误差
    在这里插入图片描述
  • 错误率和精度
    在这里插入图片描述
  • 查准率和查全率。查全率:收购西瓜的公司希望把瓜摊的好瓜都尽量收走。
    在这里插入图片描述

在这里插入图片描述

2.7比较检验

在这里插入图片描述

第三章-线性模型

3.1线性回归

  • w,b求出最优解
    在这里插入图片描述

  • 序关系:高1.0 中0.8 低0.5

  • 一些青色,浑浊,沉闷变成onehot编码[0 1 0]代表浑浊这样。

△3.2最小二乘解-已经手写推导

  • 最小二乘法:基于均方误差最小化来进行模型求解的方法称为
  • 偏导求极大值和极小值,找它的变化率
    在这里插入图片描述

3.3多元线性回归

  • 归纳偏好-正则化
    在这里插入图片描述

3.4广义线性模型

  • 逼近对数线性回归
    在这里插入图片描述

  • 联系函数
    在这里插入图片描述

3.5对率回归

  • 几率
    在这里插入图片描述

  • 对率回归;是分类学习算法
    在这里插入图片描述

△3.6对率回归求解

  • 对数几率回归为什么不能通过令偏导为0求解?均方损失非凸
    在这里插入图片描述

3.7类别不平衡

  • 小类比大类重要时候,类别不平衡问题中何时需要做特殊处理
    在这里插入图片描述

  • 解决类别不平衡问题:1过采样:将原来小类别的样本变大,和原来的大样本平衡;2欠采样:将原来大类别的样本变小,和原来的小样本平衡;3阀值移动:SVM阀值移动
    在这里插入图片描述

第四章-决策树

4.1决策树基本流程

  • 三种停止条件:
  • (1)当前结点包含的样本全属于同一类别,无需划分;就是决策树只有一个结点;
  • (2)当前属性集为空,或是所有样本在所有属性上取值相同,无法划分;就是属性值太多相同;
  • (3)当前结点包含的样本集合为空,不能划分.就是决策树预测出来的属性。
    在这里插入图片描述

4.2信息增益划分

  • 信息增益:划分前的信息熵-划分后的信息熵
    在这里插入图片描述
  • 西瓜书的例子
    在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

  • 最后以最大的纹理为划分的结点。
    在这里插入图片描述

4.3其他属性划分准则

  • 信息增益率;起到了规范化的作用;教材p76
    在这里插入图片描述

4.4决策树的剪枝

  • 预剪枝:提前终止某些分支的增长
  • 后剪枝:生成一颗完全树,再“回头”剪枝
    在这里插入图片描述

4.5缺失值的处理

  • 对于属性值的缺失:基本思路就是,样本赋权,权重划分
    在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

第五章-支持向量机

5.1支持向量机基本型

在这里插入图片描述

在这里插入图片描述

5.2对偶问题与解的特性

在这里插入图片描述

在这里插入图片描述

5.3求解方法

在这里插入图片描述

在这里插入图片描述

5.4特征空间映射

在这里插入图片描述

5.5核函数

  • 核函数:1距离矩阵2半正定
    在这里插入图片描述
    在这里插入图片描述

5.6如何使用SVM?

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

第六章-神经网络

6.1神经网络模型

在这里插入图片描述
在这里插入图片描述

6.2万有逼近能力

在这里插入图片描述

6.3BP算法推导

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

第七章-贝叶斯分类器

7.1贝叶斯决策论

在这里插入图片描述

7.2生成式和判别式模型

在这里插入图片描述

7.3贝叶斯分类器与贝叶斯学习

  • 贝叶斯主义认为,分布的参数是分布。
  • 统计学习属于频率主义。

7.4极大似然估计

在这里插入图片描述

7.5朴素贝叶斯分类器

  • 注意:对连属性,计算条件概率可考虑概率密度函数
    在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

第八章-继承学习和聚类

8.1集成学习

  • Ensemble learning:多个学习器集成。

8.2好而不同

在这里插入图片描述

  • E是集成学习的错误;E-是每个个体错误的平均,就是平均性能;A-就是每个个体之间的差异度。希望E-小,每个个体A-之间的差异要大,就是diversity。
  • 误差-分歧分解表明集成学习中多样性是关键。
    在这里插入图片描述

8.3两类常用集成学习方法

  • 串行和并行化算法
    在这里插入图片描述

8.4Boosting

  • alignment配准
  • Boosting流程:对错误样本进行加权,最后进行求和。
  • Boosting是一种同质集成学习方法。
    在这里插入图片描述

8.5Bagging

  • 投票做分类,平均做回归;
  • 注意:Bagging算法使用的采样方法是有放回采样。
    在这里插入图片描述

8.6多样性度量

  • 多样性度量
    在这里插入图片描述

  • 现有的76种多样性度量
    在这里插入图片描述

  • diversity和E的关系
    在这里插入图片描述

8.7聚类

  • 无监督学习除了聚类,还有密度估计;有监督:回归,分类。
    在这里插入图片描述

  • 聚类也可以做分类的预处理。
    在这里插入图片描述

8.8聚类方法概述

  • 一些新算法的比较容易诞生
    在这里插入图片描述

  • 常见的聚类算法
    在这里插入图片描述

  • 什么是层次聚类,AGNES;越下层,越粒化;
    在这里插入图片描述

  • 原型聚类都可以看成高斯聚类的特例,比较适合处理椭球结构

  • 密度聚类比较适合与香肠型聚类
    在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值