自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

深度强化学习

文章平均质量分 95
1、介绍强化学习相关的值函数(Q、V) 2、介绍强化学习估计值函数的两种方法:蒙特卡罗方法MC和时序差分方法TD 3、会介绍强化学习主要应用的领域模型,比如数学模型MDP,POMDP 4、主要记录强化学习以及深度强化学习相关的算法 最后,我也是一名本科生, 若有哪里表述的不对, 希望大家指正.
关注数:0 文章数:4 文章阅读量:4820 文章收藏量:94

作者: @Mr Wang

作者主要研究Tensorflow框架学习使用机器学习和深度学习应用于物联网移动边缘计算方面的问题。 使用Tensorflow的原因:TensorFlow采用静态计算图,使其更适用于生产环境和大规模部署;Tensorflow有丰富的生态系统,支持广泛的应用领域,从移动设备到云端。相比于PyTorch以及PaddlePaddle,Tensorflow一方面更侧重于生产环境和部署适用于大规模的生产部署,支持分布式计算和多平台部署;另一方面含有TensorFlow Extended (TFX): 注重端到端的生产流水线,包括模型训练、评估和部署。
展开