![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
宁缺100
迈出的步伐不非得很大,只要你是在往正确的方向前行就行
展开
-
强化学习-马尔克夫决策过程和贝尔曼方程
马尔科夫决策链 Markov Decision Process(MDP) a(finite) set of actions 动作空间 A(search,recharge,wait) a(finite) set of states 电池状态 S high low a(finite) set of rewards 奖励 R one-step dynamics of the environment 一步动态特性 (动态特性函数p) a discount rate 折扣率 伽马 【0-1】 越大对未来的奖励越.原创 2020-07-31 16:42:37 · 315 阅读 · 0 评论 -
控制智能体学习21点游戏最佳策略
MC常量控制 最优策略 灰色:要牌 绿色:停牌 MC常量控制 有可用王牌 状态动作价值函数 MC常量控制 无可用王牌 状态动作价值函数原创 2020-06-17 09:44:01 · 751 阅读 · 0 评论 -
强化学习简介
强化学习框架下交易单个股票 强化学习定义 受行为心理学的启发(如 Sutton, 1984),研究者为这一问题提出了一种形式框架,即强化学习(RL)。其主要思想是人工智能体(agent)可以通过与其环境(environment)进行交互来学习,这类似于生物智能体。使用收集到的经历(experience),人工智能体可以根据某种形式的累积奖励(reward)来优化某些目标(objective)。...转载 2020-03-02 22:53:48 · 367 阅读 · 0 评论