自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

王大流氓的博客

闲来无事闹一闹

  • 博客(1)
  • 资源 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 强化学习部分经典算法初探

目录值函数法值函数法值函数方法是通过已经有的数据采用贪婪算法每次从已有数据中去找最逼近当前状态的且获得的奖励最大的动作,以此作为下一步的action的方法。目前在众多的值函数算法中,最早也是最成功的算法就是Q-learning算法。Q-learning主要是依赖Q表选取动作,每次选取动作后,将状态、选取的动作,以及获得的奖励保存到Q表中,在每次选取动作的时候采用 策略,即采用 的概率利用已经学习到的数据,有 的概率随机探索。探索意味着随机选取一个动作,利用意味着采取当前Q值最高的动作。更新Q表公式如下

2020-06-26 16:42:22 828

visual studio 2022兼容旧版本stl调试视图

visual studio 2022中加载旧版本项目时,可能在调试的时候会出现部分集合、变量内容无法查看的情况 这个时候可以把旧版本vs的stl.natvis文件改个名字贴到vs安装目录下(默认应该是这里:C:\Program Files\Microsoft Visual Studio\2022\Community\Common7\Packages\Debugger\Visualizers\) 重启一下vs再调试应该就好了

2024-02-21

SQuAD_2.0.zip

Stanford Question answer Dataset (SQuAD)是一个阅读理解数据集,由众包工作者在维基百科文章上提出的问题组成,其中每个问题的答案都是对应阅读文章的一段文字,或者说是一段跨度,或者这个问题可能是无法回答的。资源为v2.0版的SQuAD数据集

2020-06-28

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除