统计学习第一章

统计学习

1.绪论

统计学习方法可以概括如下:从给定的、有限的、用于学习的训练数据集合出发,假设数据是独立同分布产生的; 当我们要处理数据时,可能会有很多的模型符合要求,这些所有符合要求的模型放在一起,称为假设空间,应用某个评价准则从假设空间中选取一个最优模型,使它对已知的训练数据及未知的测试数据在给定的评价准则下有最优的预测;最优模型的选取由算法实现。

统计学习方法的步骤如下:
(1) 得到一个有限的训练数据集合;
(2)确定包含所有可能的模型假设空间,即学习模型的集合;
(3)确定模型选择的准则,即学习的策络;
(4)实现求解最优模型的算法,即学习的算法
(5) 通过学习方法选择最优模型;
(6) 利用学习的最优模型对新数据进行预测或者分析

1.1 统计学习分类

统计学习可以分为:监督学习(样本有标签),无监督学习(样本无标签),半监督学习(一部分有标签,一部分无标签),强化学习
在这里插入图片描述
在这里插入图片描述

1.3 统计方法三要素

方法=模型+策略+算法

决策函数和条件概率分布函数
决策函数类似于y=kx+b,输入x可以得到Y,
条件概率分布函数则是通过输入多个x,判断生成y的哪个概率最大

策略:通过损失函数判断

1.4 过拟合

我们把预测值和样本标签值几乎完全一致的情况叫做过拟合

1.5 正则化

为了解决过拟合,可以使用正则化和交叉验证.
也可以增加样本数量.
正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项(regularizer)或罚项(penalty term)。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。

1.6 交叉验证

应用最多的是S折交叉验证(S-fold cross validation),方法如下:首先随机地将
已给数据切分为S个互不相交、大小相同的子集;然后利用S-1贪子集的数据训练模型,利用余下的子集测试模型;将这一过程对可能的S种选择重复进行;最后选出S 次评测中平均测试误差最小的模型。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值