《统计学习方法(第二版)》李航 读书笔记(2)统计学习方法分类和介绍(监督、非监督、强化学习)

本文是《统计学习方法(第二版)》李航读书笔记的第二部分,主要介绍了监督学习、无监督学习和强化学习的概念与特点。监督学习通过标注数据学习预测模型,如分类和回归问题;无监督学习关注无标注数据中的统计规律和潜在结构,如聚类和降维;强化学习则涉及智能系统在与环境交互中学习最优行为策略,目标是长期累积奖励的最大化。
摘要由CSDN通过智能技术生成

《统计学习方法(第二版)》李航 读书笔记(2)

统计学习方法分类

监督学习
从标注数据中学习预测模型的机器学习问题,本质是学习输入到输出的映射的统计规律
将输入与输出所有可能取值的集合分别称为输入空间(input space)与输出空间(output space)
每个具体的输入是一个实例(instance),通常由特征向量(feature vector)表示
在这里插入图片描述
所有特征向量存在的空间称为特征空间(feature space)
有时,输入空间与特征空间是一样的,不加以区分;但有时是不同的,就将实例映射到特征空间,模型实际上都是定义在特征空间的
• x(i)与xi 不同,前者表示x的第i个特征,后者表示多个输入变量中的第i个
输入变量与输出变量均为连续变量的预测问题称为回归问题;
输出变量为有限个离散变量的预测问题称为分类问题;
输入变量与输出变量均为变量序列的预测问题称为标注问题;
监督学习目的是学习一个由输入到输出的映射,称为模型
模式的集合就是假设空间(hypothesis space)
概率模型:条件概率分布P(Y|X)或 决策函数:Y=f(X)
在监督学习中,假设训练数据与测试数据是依连个概率分布P(X,Y)独立同分布产生的。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
无监督学习
从无标注数据中学习预测模型的机器学习问题,本质是学习数据中的统计规律或者潜在结构
每一个输出是对输入的分析结果,有输入的类别、转换或概率表示。模型可以实现对数据的聚类、降维或概率估计。
X是输入空间,Z是隐式结构空间,要学习的模型可以表示为z=g(x),条件概率分布P(z|x)。包含所有可能的模型的集合称为假设空间。无监督学习旨在从假设空间中选出在给定评价标准下的最优模型。

强化学习
Reinforcement learning是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。假设智能系统与环境的互动基于马尔科夫决策过程(Markov decision process),智能系统能观测到的是与环境互动得到的数据序列。强化学习的本质是学习最优的序贯决策。
在这里插入图片描述
每一个时间段t,智能系统从环境中观测到一个状态state St与一个奖励reward rt ,采取一个动作at。环境根据智能系统选择的动作,决定下一步t+1的状态St+1和奖励rt+1 。
智能系统的目标不是短期奖励的最大化,而是长期累积的奖励的最大化。系统不断地试错(trial and error),以达到学习最优策略的目的。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值