神经网络的选取
这里着重强调一下,我们用神经网络的目的是为了拟合值函数(动作-状态值函数)。
那么我们应该使用什么样的网络呢?当你在网上搜索DQN代码时,主要有以下几个版本的复制:基于gym中倒立摆与过山车的DQN,用的为一个隐藏层的全连接;基于原始图像输入如Atari中的游戏,用的为深度卷积神经网络。因此,当你把DQN应用到具体的应用时
,首先考虑一下是不是真的需要使用深度卷积神经网络。当你的特征可以直接提取并可以根据得到的特征计算值函数时
,就不需要使用卷积神经网络,只有当你的Agent输入为原始图像,需要提取图像特征时再考虑使用卷积神经网络。
如果你要问神经元的数量以及层数,大致的思路是层数越深,每层神经元数据可以相应减少;层数越浅,每层神经元数量就稍微增多一点。
激活函数这里要注意一下,如果你的环境奖励为负值
,那么要注意:Relu可能会使你的神经元不激活,从而导致反向传播无法更新大量的参数。Relu的变种或者Sigmoid变种(tanh)等都可以考虑,但是sigmoid在一定区域也会出于无梯度状态。
————————————————
版权声明:本文为CSDN博主「MADong0」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/guijian6473/article/details/93859663
参数模型和非参数模型
机器学习中的数据分布密度估计之采样法
添加链接描述
寻找数据集的分布参数或其后验概率的途径有两个,一是采样法,另一个是使用类似最大似然法的优化法,获得近似解