Reinforcement Learning（一）：introduction

最新推荐文章于 2020-09-05 16:32:09 发布

坚硬果壳_

最新推荐文章于 2020-09-05 16:32:09 发布

阅读量193

点赞数

分类专栏：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38156104/article/details/107893036

版权

强化学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

A little bit probability theory

Random Variable

随机变量:未知;它的值取决于随机事件的结果。用大写字母表示随机变量，观察值用小写字母表示，注意，观察值是没有随机性的。

Probability Density Function (PDF)

PDF提供了随机变量的值与样本相等的相对可能性，比如下图的高斯分布以及离散分布：

满足以下性质：

Expectation

Terminologies

以马里奥游戏为例子说明。

state and action

agent：智能体
state：当前状态
action：agent采取的行动

policy

是概率密度函数，是给定当前状态s下，采取行动a的概率。

reward

state transition

状态转移函数通常是未知的，由环境决定。

agent environment interaction

Randomness in Reinforcement Learning

Actions have randomness

State transitions have randomness

Play the game using AI

Rewards and Returns

Return

因此引入折扣回报：

Randomness in Returns

Value Functions

Action-Value FunctionQ(s,a)

State-Value Function V(s)

Understanding the Value Functions

Play games using reinforcement learning

How does AI control the agent?

两种方法：

OpenAI Gym

gym是一个开发和比较强化学习算法的工具包。https://gym.openai.com/

Summary

We are going to study…

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

坚硬果壳_ CSDN认证博客专家 CSDN认证企业博客

码龄7年

117: 原创

3万+: 周排名

1万+: 总排名

41万+: 访问

: 等级

2554: 积分

130: 粉丝

363: 获赞

60: 评论

1527: 收藏

私信

关注

热门文章

分类专栏

最新评论

PyTorch基础教程学习笔记（八）：训练一个分类器
翼同: --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) ~\AppData\Local\Temp/ipykernel_24024/3057148826.py in <module> 15 # get some random training images 16 dataiter = iter(trainloader) ---> 17 images, labels = dataiter.next() 18 19 # show images AttributeError: '_SingleProcessDataLoaderIter' object has no attribute 'next'
pytorch之多GPU使用——#CUDA_VISIBLE_DEVICES使用 #torch.nn.DataParallel() #报错解决
坚硬果壳_: 是的，文中是针对Ubuntu系统
pytorch之多GPU使用——#CUDA_VISIBLE_DEVICES使用 #torch.nn.DataParallel() #报错解决
饿了就干饭: 我最近尝试在win10平台上使用多卡进行对大模型进行推理，文中这个方法应该是只能在linux系统使用吧，多GPU进行模型推理时，需要NCCL辅助多GPU之间进行通信，而英伟达只发布了linux版本的NCCL包~ NCCL下载地址：https://developer.nvidia.com/nccl/nccl-legacy-downloads可以验证
【已解决】.pth---＞.onnx(---＞.tflite)---＞.kmodel
xsj233: 你好，请问pip install安装好nncase之后怎么用这个来转换kmodel呢？
_pickle.UnpicklingError: unpickling stack underflow
2201_75732845: 怎么在windows里面找那个位置啊

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。