机器学习复习--第一章 简介

一、简介

1.监督学习

(1)回归:Y是连续的,且通过Y可以计算距离
(2)分类:Y之间是无序的,且不能进行大小比较
如:天气预报预测是否下雨:分类问题
  股票预测交易量:回归问题

2.非监督学习

无标签y,主要应用于降维、数据压缩、正常情况建模、分割、聚类、密度估计等等
如:通过年龄预测孩子身高:监督回归
  对邮件进行垃圾分类:非监督、聚类
  通过文章集作者性别判断作者性别:监督分类

二、机器学习基本流程

1.选择一个模型,如 f ( x ) = a x + b f(x)=ax+b f(x)=ax+b
2.选择一个误差函数:如 l o s s = 1 n ∑ i = 1 n ( y i − f ( x i ) ) 2 loss={1\over n}\sum^n_{i=1}(y_i-f(x_i))^2 loss=n1i=1n(yif(xi))2
3.优化误差函数从而求得模型参数

流程图:
在这里插入图片描述

1.数据

(1)数据清洗:消除错误和噪声、消除冗余
(2)过程:重命名、缩放(标准化)、离散化、抽象、聚合、新特性

设计环节:

2.特征选择

对每个维度选择特征对分类器效果的影响

3. 模型选择

(1)模型选择可能存在的问题:

1)泛化性不足:需要在全部数据样本求得误差,这个误差叫泛化误差,来衡量泛化性能
2)过拟合:过拟合体现在训练误差小,测试误差大,原因是模型参数过多或者数据样本量小
避免过拟合的方法:使用大量数据样本同验证集做模型选择使用正则化Occam’s Razor
   (欠拟合体现在训练误差大,测试误差也大)

(2)模型举例:

1)KNN:目的是将一个测试数据进行分为两类,与所有训练样本计算距离,选出与待测样本最近的K个样本,这K个样本标签大多数为什么,就将其赋予待测样本。
2)决策树 DT:深度越深,复杂度越大
3)多项式回归:多项式阶数越大,复杂度越大

(3)模型选择的方法

通过验证集评估模型
1)留出法(hold-out):将数据集划分为训练集和验证集两个集合,使用训练集数据对模型进行训练,使用验证集选择验证集的误差最小的模型。
缺点:用于训练的样本量减少了,分验证集和训练集时存在随机性
2)交叉验证法(cross validation)k折交叉验证
将训练集分为k份,每次选一份作为验证集,其余作训练集 ,进行k次训练和测试,最终训练出k个模型。

在这里插入图片描述
3)留一法:K折交叉验证的特例,将数据集一个样本作为一份
正则化项
4) 通过正则化方式限制多项式自由度达到减少参数问题:
在这里插入图片描述
‘+’左边为正常的目标函数, λ \lambda λ称为规范化参数, λ 2 ∥ w ∥ 2 {\lambda \over 2}\|w\|^2 2λw2称为正则化项

4. 学习过程:求w

(1)定义损失函数:极大似然,最大后验,hinge loss等
(2)优化:凸优化、牛顿法、梯度下降、共轭梯度

5.评价

平方损失、误分率等

三、概率论、决策论、信息论

1.概率论

(1)贝叶斯理论:由先验知识通过观察得到后验
在这里插入图片描述
(2)期望:
在这里插入图片描述
(3)方差:在这里插入图片描述

2.统计决策论

推断部分计算后验概率和似然估计
决策部分,通过输入观测,决策输出。误分类概率等衡量方法把x赋予有最大后验概率的类别
推断与决策分开的原因:减小误分类概率,可以调整拒识阈值,解决类别不均衡问题,合并模型
决策的三种方法:(1)先建模算联合概率,后通过贝叶斯算后验概率(2)直接建模后验概率

3.信息论

熵:表示数据的混乱程度
信息熵、微分熵(针对连续随机变量)、条件熵、交叉熵

在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值