![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
论文研读
文章平均质量分 59
星之所望
兴趣使然的AI工程师
展开
-
Office Word 2016 中Word自带公式编辑器编辑的公式转Mathtype出现omml2mml.xsl 问题的解决方法
在网上各种百度全是在安装目录下找到omml2mml.xsl拷贝到另一个文件夹的解决方法,然而对于WORD 2016毫无作用解决方法1. 找到word的安装目录 默认路径 C:\Program Files (x86)\Microsoft Office\Office1664位操作系统是 C:\Program Files\Microsoft Office\Office162. 在安装目录里面找到WINWORD.EXE3. 直接打开,在最近使用的文档当中选择你想编辑的文档或者打开其他文档.转载 2022-04-21 11:21:34 · 4101 阅读 · 0 评论 -
强化学习论文研读(四)——Deep Reinforcement Learning with Double Q-Learning
double Q learning + DQN的合成算法。论文主要有5点贡献:一是DQN会对动作的价值过估计。二是过估计是有害的。三是double Q learning 可以减少过估计。通过评估网络和动作选择网络解耦实现的。四是提出了三层卷积+FC的Double DQN 算法结构和参数更新公式。五是证明了 Double DQN是有效的。相比于DQN主要改进在一点:看到里边的两个Q中的θ是不一样的。一个是target的net,一个是当前的网络,存在时间更新的前后顺序,.原创 2021-02-16 22:15:21 · 582 阅读 · 0 评论 -
强化学习论文研读(一)——Where Do Rewards Come From?
在强化学习领域,传统的要素为环境,观察表述,奖励,动作,这里的奖励完全由环境给出,论文提出一种内部驱动的奖励系统,如下图所示:本文将奖励分为内部驱动的奖励和外部驱动的奖励,二者相互作用指导智能体的行动。这在生物学上有一定的依据,生物在进化中学习到了很多的品质,比如喜欢探索,好奇心,这些品质即使没有外部奖励,一些生物的个体依然会保持,可见其合理性。论文使用两个实验证明,使用自身相关的奖励,比单纯使用外部的适应度奖励更好。论文使用的算法为Q-learning。一是饥饿-口渴实验:条件原创 2021-01-28 07:18:43 · 225 阅读 · 0 评论 -
强化学习论文研读(二)——Playing Atari with Deep Reinforcement Learning
DQN系列算法的开山之作,这里的dqn通常称为NIPS-DQN,后来还有nature-DQN,更加好用。论文的一些理解Q-Learning的伪代码:NIPS-DQN的伪代码:有以下几个关键点:一是图像的处理: 将图像压缩成灰度图 将图像降低分辨率 对图像进行裁剪,只保留中间有动作的部分,去不无用的边缘 对视频进行关键帧采样,不用每帧都处理 用多个关键帧组成输入,表述完整的动态过程。比如每次输入使用4个关键帧 所有奖励都剪裁成原创 2021-01-29 20:15:14 · 752 阅读 · 1 评论 -
强化学习论文研读(三)——Human-level control through deep reinforcement learning
提出nature-DQN算法的论文,主要改进:使用bata-buffer的方式随机储存状态回放,消除数据的相关性,平滑数据的分布。 使用定期更新Q的方式,使减少与当前目标的相关性,也就是所谓的target-Q网络。数据可视化:t-SNE算法,用于在二维或三维的低维空间中表示高维数据集,从而使其可视化,对DQN得到的隐层输出进行降维,观察各种输入状态的相关性,很有用。在论文中,人类和算法的操作,在镶嵌进2d空间后,有很强的的相关性,表明两者决策方法类似。橙色人类,蓝色AI数据预处理原创 2021-01-31 12:53:28 · 1155 阅读 · 0 评论