RL 强化学习笔记(一) 马科夫决策过程(MDP)

写博客的目的是总结自己的学习成果,希望能帮助到有需要的同学。用到的数学知识:条件概率分布:https://zh.wikipedia.org/wiki/%E6%9D%A1%E4%BB%B6%E6%A6%82%E7%8E%87%E5%88%86%E5%B8%83期望:https://zh.wikipedia.org/wiki/%E6%9C%9F%E6%9C%9B%E5%80%BC...
摘要由CSDN通过智能技术生成

写博客的目的是总结自己的学习成果,希望能帮助到有需要的同学。

用到的数学知识:

条件概率分布:

https://zh.wikipedia.org/wiki/%E6%9D%A1%E4%BB%B6%E6%A6%82%E7%8E%87%E5%88%86%E5%B8%83

期望:

https://zh.wikipedia.org/wiki/%E6%9C%9F%E6%9C%9B%E5%80%BC

马尔可夫性质: 

https://zh.wikipedia.org/wiki/%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E6%80%A7%E8%B4%A8

一、强化学习模型

  强化学习的模型包括9个基本要素:

  1.环境的状态S(State),在t时刻的状态用S_{t}表示

  2.个体的动作A(Action),在t时刻个体采取的动作用A_{t}表示。

  3.环境的奖励R(Reward),个体在状态S_{t}下采取动作A_{t}后,对应的奖励R_{t+1}会在t+1时刻得到

  4.个体的策略\pi(policy),表示个体采取动作的依据。强化学习一般使用条件概率分布\pi (a|s)来表示个体在状态s下选取采取动作a的概率。

  5.环境的状态转化模型P_{ss'}^a,表示个体在状态s下采取动作a后转移到状态s'的概率。

  6.状态价值v_{\pi}(s),表示个体在状态s下,使用策略\pi,采取行动a后的价值期望 。虽然当前动作会给一个延时奖励R_{t+1},但是光看这个延时奖励是不行的,因为当前的延时奖励高,不代表到了t+1,t+2,...时刻的后续奖励也高。比如下象棋,我们可以某个动作可以吃掉对方的车,这个延时奖励是很高,但是接着后面我们输棋了。此时吃车的动作奖励值高但是价值并不高。因此我们的价值要综合考虑当前的延时奖励和后续的延时奖励。价值函数v_{\pi}(s)一般可以表示为:

v_{\pi}(s) = E_{\pi}(R_{t+1} + \gamma R_{t+2} + \gamma ^2R_{t+3} + ... | s = S_{t})  

7.奖励衰减因子\gamma\gamma \in [0,1 ]。如果为0,则是贪婪法,即价值只由当前延时奖励决定,如果是1,则所有的后续状态奖励和当前奖励一视同仁。大多数时候,我们会取一个0到1之间的数字,即当前延时奖励的权重比后续奖励的权重大。

8.动作价值q_{\pi}(s, a),表示个体在状态s下,采用动作a后获得的价值期望:

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
系统根据B/S,即所谓的电脑浏览器/网络服务器方式,运用Java技术性,挑选MySQL作为后台系统。系统主要包含对客服聊天管理、字典表管理、公告信息管理、金融工具管理、金融工具收藏管理、金融工具银行卡管理、借款管理、理财产品管理、理财产品收藏管理、理财产品银行卡管理、理财银行卡信息管理、银行卡管理、存款管理、银行卡记录管理、取款管理、转账管理、用户管理、员工管理等功能模块。 文中重点介绍了银行管理的专业技术发展背景和发展状况,随后遵照软件传统式研发流程,最先挑选适用思维和语言软件开发平台,依据需求分析报告模块和设计数据库结构,再根据系统功能模块的设计制作系统功能模块图、流程表和E-R图。随后设计架构以及编写代码,并实现系统能模块。最终基本完成系统检测和功能测试。结果显示,该系统能够实现所需要的作用,工作状态没有明显缺陷。 系统登录功能是程序必不可少的功能,在登录页面必填的数据有两项,一项就是账号,另一项数据就是密码,当管理员正确填写并提交这二者数据之后,管理员就可以进入系统后台功能操作区。进入银行卡列表,管理员可以进行查看列表、模糊搜索以及相关维护等操作。用户进入系统可以查看公告和模糊搜索公告信息、也可以进行公告维护操作。理财产品管理页面,管理员可以进行查看列表、模糊搜索以及相关维护等操作。产品类型管理页面,此页面提供给管理员的功能有:新增产品类型,修改产品类型,删除产品类型。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值