2020年11月_白水baishui

12月 11月 09月 08月 06月 05月 04月 03月 02月 01月

原创强化学习——马尔科夫决策过程 MDP

文章目录1. 马尔科夫过程 Markov Process，MP1.1. 马尔科夫性质 Markov Property1.2. 马尔科夫链 Markov Chain2. 马尔科夫反馈过程 Markov Reward Process，MRP3. 马尔科夫决策过程 Markov Decision Process，MDP马尔可夫决策过程是强化学习里面的一个基本框架，在马尔可夫决策过程的定义中，Agent所处的环境是 Fully Observable ，就是全部可以观测的。但是很多时候环境里面有些量是不可观测的，这

2020-11-29 12:22:46 3759 2

原创强化学习——强化学习概述

本篇博客是对强化学习的基本概念进行解释，无深入的算法推导文章目录1.强化学习 Reinforcement Learning1.1. 强化学习的目的1.2. 强化学习的过程1.3. 强化学习的特点2. 序列决策过程 Sequential Decision Making2.1. 智能体(Agent)与动作空间(Action Spaces)2.1.1. 智能体 Agent2.1.1.1. 策略函数2.1.1.2. 价值函数2.1.1.3. 模型2.1.1.4. 智能体的分类2.1.2. 动作空间 Actio.

2020-11-20 20:12:55 1830 2

TA关注的人

白水的博客

原创强化学习——马尔科夫决策过程 MDP

原创强化学习——强化学习概述

原创英文文献调研方法综述

2020-2021顶会关于推荐系统中的解决偏差（bias）问题的文献汇总.zip

软考系统架构设计师历年真题及答案、题型归类

AgentTable.csv

进制转换工具

DirectX修复工具V3.3

微信小游戏跳一跳辅助脚本Python源码

机器学习到底要不要大数据的支持，如果要数据的支持，支持到哪一步？

原创 强化学习——马尔科夫决策过程 MDP

原创 强化学习——强化学习概述

原创 英文文献调研方法综述

2020-2021顶会关于推荐系统中的解决偏差（bias）问题的文献汇总.zip

软考系统架构设计师历年真题及答案、题型归类

AgentTable.csv

进制转换工具

DirectX修复工具V3.3

微信小游戏跳一跳辅助脚本Python源码

机器学习到底要不要大数据的支持，如果要数据的支持，支持到哪一步？

原创强化学习——马尔科夫决策过程 MDP

原创强化学习——强化学习概述

原创英文文献调研方法综述