自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 资源 (7)
  • 收藏
  • 关注

原创 强化学习篇

此系列文章介绍强化学习相关内容1.强化学习历史2.强化学习之多臂赌博机对(行为)进行学习3.强化学习之马尔科夫决策过程对(行为,状态)组进行学习4.强化学习之策略学习马尔科夫决策需要知道全部状态,对实际情况引入四种学习方法(部分内容来自于国科大高级人工智能沈华伟老师授课内容)...

2020-12-29 23:38:21 133

原创 强化学习之策略学习

2020-12-29 23:30:29 269

原创 强化学习之马尔科夫决策过程

2020-12-29 23:28:54 167

原创 强化学习之多臂赌博机

2020-12-29 23:27:58 192

原创 强化学习历史

强化学习历史1911年,Thorndike提出效果律(Law of effect),从心理学的角度探讨了强化思想:动物感到舒服的行为会被强化,动物感到不舒服的行为会被弱化1954年,马文·明斯基(Marvin Minsky)在其博士论文中实现了计算上的试错学习1957年,Bellman提出求解最优控制问题的动态规划方法,并提出了最优控制问题的随机离散版本,即著名的马尔科夫决策过程1960年,Howard提出马尔科夫决策过程的策略迭代方法1961年,明斯基在其论文“Steps toward

2020-12-29 22:55:33 1623

离散数学及其应用原书第7版,(美)KENNETHH.ROSEN著 第四部分

离散数学及其应用原书第7版 第四部分(本书目录详细,内容实全,质量极高) (美)KENNETHH.ROSEN著 徐六通等译 注意:因为上传大小限制,本资源为该书第四部分,其余请搜索 离散数学及其应用原书第7版,(美)KENNETHH.ROSEN著 第一部分、第二部分、第三部分,共需11积分,需要同时解压。

2017-10-17

离散数学及其应用原书第7版,(美)KENNETHH.ROSEN著 第一部分三

离散数学及其应用原书第7版 第三部分(本书目录详细,内容实全,质量极高) (美)KENNETHH.ROSEN著 徐六通等译 注意:因为上传大小限制,本资源为该书第二部分,其余请搜索 离散数学及其应用原书第7版,(美)KENNETHH.ROSEN著 第一部分、第二部分、第四部分,共需11积分

2017-10-17

离散数学及其应用原书第7版,(美)KENNETHH.ROSEN著 第二部分

离散数学及其应用原书第7版 第二部分(目录详细,内容实全,质量极高) (美)KENNETHH.ROSEN著 徐六通等译 注意:因为上传大小限制,本资源为该书第二部分,其余请搜索 离散数学及其应用原书第7版,(美)KENNETHH.ROSEN著 第一部分、第三部分、第四部分,共需11积分

2017-10-17

离散数学及其应用原书第7版,(美)KENNETHH.ROSEN著 第一部分

离散数学及其应用原书第7版 (美)KENNETHH.ROSEN著 徐六通等译 注意:因为上传大小限制,本压缩文件为该书第一部分,后续请搜索第二部分、第三部分、第四部分,共需积分11分

2017-10-17

Java数据结构和算法中文第二版

Java数据结构和算法 中文 第二版 data structure && algorithms in java Robert Lafore著 计晓云、赵验等译

2017-10-17

离散数学及其应用奇数编号练习答案(Discrete Mathematics and Its Applications 7th Edition 2011)

even answers of Discrete Mathematics and Its Applications 7th Edition 2011

2017-10-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除