强化学习:策略迭代与价值迭代

强化学习:策略迭代与价值迭代

作者:禅与计算机程序设计艺术

1. 背景介绍

1.1 强化学习概述

1.1.1 强化学习的定义
1.1.2 强化学习的特点
1.1.3 强化学习的应用领域

1.2 马尔可夫决策过程

1.2.1 马尔可夫性质
1.2.2 马尔可夫决策过程的组成要素
1.2.3 马尔可夫决策过程的最优性原理

1.3 动态规划

1.3.1 动态规划的基本思想
1.3.2 动态规划的优缺点
1.3.3 动态规划在强化学习中的应用

2. 核心概念与联系

2.1 状态价值函数与动作价值函数

2.1.1 状态价值函数的定义
2.1.2 动作价值函数的定义
2.1.3 两种价值函数之间的关系

2.2 策略与价值函数的关系

2.2.1 策略的定义
2.2.2 确定性策略与随机性策略
  • 7
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值