统计学习方法-读书笔记-1.概论

最新推荐文章于 2022-05-15 13:25:59 发布

星青星晴

最新推荐文章于 2022-05-15 13:25:59 发布

阅读量229

点赞数

文章标签：统计学习方法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ZYXpaidaxing/article/details/79764420

版权

这本书的主要内容是关于监督学习，统计学习方法三要素：模型+策略+算法；监督学习方法的应用：分类、标注、回归。

1.1统计学习

“学习”：如果一个系统能够通过执行某个过程改进它的性能，这就是学习。

统计学习的对象是数据，它从数据出发，提取数据的特征，抽象出数据的模型，发现数据中的知识，又回到对数据的分析与预测中去。

1.2监督学习（有标记，预测）

（1）概念：输入空间、特征空间与输出空间

（2）变量的不同类型，对于预测任务不同名称：回归（连续变量）、分类（离散变量）、标注（变量序列）

（3）监督学习分为“学习+预测”两个过程，模型分为概率模型（P(y|x)）和非概率模型（y=f(x)）

1.3统计学习三要素（模型+策略+算法）

（1）模型：概率模型（P(y|x)）和非概率模型（y=f(x)）

（2）策略（在假设空间中选取最优模型）

——损失函数：0-1损失函数，平方损失函数、绝对损失函数、对数损失函数

——风险函数：损失函数的期望

——经验风险：平均损失

结构风险最小化（正则化）：在结构风险基础上加上表示模型复杂度的正则化项（罚项），正则化系数用以权衡经验风险和模型复杂度，使得两者均最小。

（3）算法（最优化问题）：模型的具体计算方法，求解最优模型。

1.4模型评估与模型选择

（1）对于模型的训练误差和测试误差，测试误差反映对未知数据的预测泛化能力。

（2）过拟合：学习时选择的模型所包含的参数过多，以至于这一模型对于已知数据拟合的很好，但对未知数据预测很差，泛化能力不高。这样，在学习的时候就要防止过拟合，进行最优模型选择，选择复杂度适当的模型，已达到测试误差小，泛化能力强。两种常用的模型选择方法：“正则化”和“交叉验证”。

1.5正则化与交叉验证

（1）正则化是一种模型选择的典型方法，是结构风险最小化策略的实现，是在经验风险上加上一个正则化项（罚项）正则化的作用是选择经验风险和模型复杂度同时较小的模型，它符合奥卡姆剃刀原理。

正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化值就越大。例如，正则化项可以是模型参数向量的范数。

L1正则化-Lasso

L2正则化-岭回归（ridge）

（2）交叉验证：将数据集划分为训练集、测试集（验证集）

——简单交叉验证：训练集+测试集

——K折交叉验证：（k-1）训练集+（1）测试集，求出平均测试误差。

——留一交叉验证：（N-1）训练集+（1）测试集，样本总数为N，往往在数据缺乏的时候使用。

1.6泛化能力：由方法学习到的模型对未知数据的预测能力。

1.7生成模型与判别模型

监督学习方法可分为生成方法和判别方法，所学到的模型分别称为生成模型和判别模型。

（1）生成模型：由数据学习联合概率分布P(X,Y)，然后求出条件概率分布P(Y|X)作为预测的模型，该模型表示了给定输入X产生输出Y的生成关系，有朴素贝叶斯法和隐马尔科夫模型。

特点：可以还原出联合概率分布P(X,Y)，而判别方法不能；生成方法的学习收敛速度更快；存在隐变量可使用该方法。

（2）判别模型：由数据直接学习决策函数f(x)或者条件概率分布P(Y|X)作为预测的模型。该模型关心的是对给定的输入X，应该预测什么样的输出Y。有K近邻法、感知机、决策树、逻辑斯蒂回归、最大熵模型、支持向量机、提升方法和条件随机场。

特点：直接进行预测，学习的准确率更高，简化学习问题。

1.8-1.10分类、标注、回归问题

（1）分类：分类器，评价分类器性能的指标：精确率（P）、召回率（R）和F1指标。例如文本分类（新闻分类）

（2）标注：分类问题的推广，输入是一个观测序列，输出是一个标记序列或状态序列（隐马尔科夫模型和条件随机场），例如信息抽取、自然语言处理。

（3）回归：相当于函数拟合，选择一条函数曲线使其很好地拟合已知数据，并且很好地预测未知数据。例如商务领域的市场趋势预测、产品质量管理、投资风险分析、股价预测等。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。