Rl强化学习基础课(周博磊) class.1

Supervised Learning:需要训练集,有正确答案。 所以有loss function(1)数据尽可能不相关(2)正确的label有判定标准

Reinforcement Learning:反馈比较慢,无直接的判定标准。

Diff between RL and Supervised Learning:

  1. 序列化的数据输入,不是一个个独立样本
  2. learner 是一个学习的过程,并不知道具体行为准确的对错,需要自己去尝试
  3. Trial and error 强化学习存在一个试错的过程(exploration and exploitation)
  4. 强化学习中,no supervisor,只有一个奖励信号,并且存在延迟

强化学习主要特征:

  1. Trial and error exploration
  2. 延迟奖励
  3. 连续的数据输入,涉及到了时间问题(Time 是关键问题,类似于监督学习中数据i.i.d让data不相关)
  4. 智能体(agent)的行为,会对之后产生的数据有影响,可以改变所处的环境

强化学习优势:

  1. 强化学习得到的模型,得到“超人类”的结果,(图片减少人的标定,更少的人类设定标签)

 

Deep Reinforcement Learning:    Deep Learning + Reinforcement Learning

  • end-to-end training :不需要手工设定特征;省去了 feature 设定评估

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值