我是呆猫呀-CSDN博客

原创强化学习部分经典算法初探

目录值函数法值函数法值函数方法是通过已经有的数据采用贪婪算法每次从已有数据中去找最逼近当前状态的且获得的奖励最大的动作，以此作为下一步的action的方法。目前在众多的值函数算法中，最早也是最成功的算法就是Q-learning算法。Q-learning主要是依赖Q表选取动作，每次选取动作后，将状态、选取的动作，以及获得的奖励保存到Q表中，在每次选取动作的时候采用策略，即采用的概率利用已经学习到的数据，有的概率随机探索。探索意味着随机选取一个动作，利用意味着采取当前Q值最高的动作。更新Q表公式如下

2020-06-26 16:42:22 828

visual studio 2022兼容旧版本stl调试视图

visual studio 2022中加载旧版本项目时，可能在调试的时候会出现部分集合、变量内容无法查看的情况这个时候可以把旧版本vs的stl.natvis文件改个名字贴到vs安装目录下（默认应该是这里：C:\Program Files\Microsoft Visual Studio\2022\Community\Common7\Packages\Debugger\Visualizers\）重启一下vs再调试应该就好了

2024-02-21

SQuAD_2.0.zip

Stanford Question answer Dataset (SQuAD)是一个阅读理解数据集，由众包工作者在维基百科文章上提出的问题组成，其中每个问题的答案都是对应阅读文章的一段文字，或者说是一段跨度，或者这个问题可能是无法回答的。资源为v2.0版的SQuAD数据集

2020-06-28

C++ wstring字符串赋值异常

2022-03-24

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 强化学习部分经典算法初探

visual studio 2022兼容旧版本stl调试视图

SQuAD_2.0.zip

C++ wstring字符串赋值异常

原创强化学习部分经典算法初探