为什么说强化学习是一种人工智能的通用框架?

深度强化学习(Deep Reinforcement Learning) ,强化学习是一种人工智能的通用框架:
1、强化学习是针对一个拥有行动能力的agent 而言的
2、每个行动影响了agent 的未来状态
3、使用标量值回报信号来度量成功
一言以蔽之:选择行动来最大化未来回报。我们最终的目标是寻求得到可以解决所有人类层级的任务的单一的agent,这也是智能agent 的本质。


agent和环境


强化学习结构:
在每个时间步t、agent:
–接受状态St
–接受标量回报rt
–执行行动at
强化学习的环境:
–接受行动at
–产生状态St
–产生标量回报rt



强化学习的场景和例子


1、控制物理系统:行走、飞行、驾驶、游泳、……
2、与用户进行交互:客户维护retain customers、个性化频道personalisechannel、用户体验优化optimiseuser experience、……
3、解决物流问题:规划scheduling、带宽分配bandwidth allocation、电梯控制、认知无线电cognitive radio、电力优化power optimisation、……
4、玩游戏:棋类、扑克、围棋、Atari 游戏、……
5、学习序列化算法:注意力attention、记忆memory、条件计算conditional computation、激活activation


策略policy 和估值value 函数


策略π 是给定状态下选择行动的行为函数:
a=π(s)
估值函数Qπ(s, a)是从状态s开始在策略π 下采取行动a 的期望全回报:

估值就是评估在状态s 时采取行动a 的好坏。


强化学习的几个方向


基于策略的强化
–直接搜索最优策略π*
–目标就是得到最大未来回报的策略
基于估值的强化
–估计最优值函数Q*(s, a)
–在任何策略下可获得的最大值
基于模型的强化
–构建一个环境的迁移模型
–使用该模型进行规划(通过查找规则)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
强化学习属于人工智能的一类算法。它通过智能体与环境的交互,通过获得奖励和惩罚的反馈来学习最优的行为策略。强化学习可以被看作是一种通用的学习框架,用于解决通用人工智能的问题,因此也被称为通用人工智能的机器学习方法。 强化学习的概念最初来源于行为心理学,用于描述生物为了获得利益和避免伤害而改变自己的行为的学习过程。后来,这一概念被引入到人工智能领域中,并成为人工智能的重要分支之一。 强化学习被认为是人工智能的未来,具有广泛的应用前景。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [什么是强化学习强化学习之父:它是人工智能的未来](https://blog.csdn.net/weixin_42137700/article/details/90664430)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* [强化学习人工智能的未来?](https://blog.csdn.net/csdnnews/article/details/103331613)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值