统计学习方法-读书笔记-1.概论

这本书的主要内容是关于监督学习,统计学习方法三要素:模型+策略+算法;监督学习方法的应用:分类、标注、回归

1.1统计学习

学习”:如果一个系统能够通过执行某个过程改进它的性能,这就是学习。

统计学习的对象是数据,它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。

1.2监督学习(有标记,预测)

(1)概念:输入空间、特征空间与输出空间

(2)变量的不同类型,对于预测任务不同名称:回归(连续变量)、分类(离散变量)、标注(变量序列)

(3)监督学习分为“学习+预测”两个过程,模型分为概率模型(P(y|x))和非概率模型(y=f(x))

1.3统计学习三要素模型+策略+算法

(1)模型:概率模型(P(y|x))和非概率模型(y=f(x))

(2)策略(在假设空间中选取最优模型)

——损失函数:0-1损失函数,平方损失函数、绝对损失函数、对数损失函数

——风险函数:损失函数的期望

——经验风险:平均损失

结构风险最小化(正则化):在结构风险基础上加上表示模型复杂度的正则化项(罚项),正则化系数用以权衡经验风险和模型复杂度,使得两者均最小。

(3)算法(最优化问题):模型的具体计算方法,求解最优模型。

1.4模型评估与模型选择

(1)对于模型的训练误差和测试误差,测试误差反映对未知数据的预测泛化能力。

(2)过拟合:学习时选择的模型所包含的参数过多,以至于这一模型对于已知数据拟合的很好,但对未知数据预测很差,泛化能力不高。这样,在学习的时候就要防止过拟合,进行最优模型选择,选择复杂度适当的模型,已达到测试误差小,泛化能力强。两种常用的模型选择方法:“正则化”和“交叉验证”。

1.5正则化与交叉验证

(1)正则化是一种模型选择的典型方法,是结构风险最小化策略的实现,是在经验风险上加上一个正则化项(罚项)正则化的作用是选择经验风险和模型复杂度同时较小的模型,它符合奥卡姆剃刀原理。

正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。例如,正则化项可以是模型参数向量的范数。

L1正则化-Lasso

L2正则化-岭回归(ridge)

(2)交叉验证:将数据集划分为训练集、测试集(验证集)

——简单交叉验证:训练集+测试集

——K折交叉验证:(k-1)训练集+(1)测试集,求出平均测试误差。

——留一交叉验证:(N-1)训练集+(1)测试集,样本总数为N,往往在数据缺乏的时候使用。

1.6泛化能力:由方法学习到的模型对未知数据的预测能力。

1.7生成模型与判别模型

监督学习方法可分为生成方法和判别方法,所学到的模型分别称为生成模型和判别模型。

(1)生成模型:由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,该模型表示了给定输入X产生输出Y的生成关系,有朴素贝叶斯法和隐马尔科夫模型。

特点:可以还原出联合概率分布P(X,Y),而判别方法不能;生成方法的学习收敛速度更快;存在隐变量可使用该方法。

(2)判别模型:由数据直接学习决策函数f(x)或者条件概率分布P(Y|X)作为预测的模型。该模型关心的是对给定的输入X,应该预测什么样的输出Y。有K近邻法、感知机、决策树、逻辑斯蒂回归、最大熵模型、支持向量机、提升方法和条件随机场。

特点:直接进行预测,学习的准确率更高,简化学习问题。

1.8-1.10分类、标注、回归问题

(1)分类:分类器,评价分类器性能的指标:精确率(P)、召回率(R)和F1指标。例如文本分类(新闻分类)

(2)标注:分类问题的推广,输入是一个观测序列,输出是一个标记序列或状态序列(隐马尔科夫模型和条件随机场),例如信息抽取、自然语言处理。

(3)回归:相当于函数拟合,选择一条函数曲线使其很好地拟合已知数据,并且很好地预测未知数据。例如商务领域的市场趋势预测、产品质量管理、投资风险分析、股价预测等。




  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值