深度强化学习
文章平均质量分 73
主要介绍深度强化学习的知识笔记
@@老胡
思考与实践并行,努力成为发现和解决问题的人
展开
-
深度学习可视化模型
如下图所示:下图上面是关于一个分类网络的一个训练过程,即输入一个原始图像,经过全卷积神经网络的训练,得到最后一个卷积层的卷积结果,这里为一个512通道14*14的卷积结果,经过全局平均池化GAP,对每一个通道求一个平均数(即得到512个平均数),这些平均数作为线性分类的权重进行加权求和,得到每一个类别的logit,经过softmax得到一个后验置信度,从而得到该特征中属于每一个类别的概率。使用二阶和三阶偏导数得到每一个位置的权重,每一个位置的权重不同,则不同位置对最后的权重w的影响也就不同。原创 2024-04-12 14:26:10 · 920 阅读 · 0 评论 -
理解感受野
定义:在卷积神经网络中,每个神经元结点都对应着输入图像的某个区域,仅该区域的图像内容能对相应的神经元的激活产生影响,那么这个区域就叫做该神经元的感受野。越靠近感受野的中心区域越重要;各向同性:也就是感受野附近的重要程度成中心对称结构;由中心向周围的重要性衰减速度可以通过网络结构控制。原创 2024-03-11 20:04:22 · 406 阅读 · 0 评论 -
深度强化学习(三)马尔科夫决策过程
Horizon:同一个游戏环节或者轨迹的长度,由有限个步数决定的。Return回报:从时间t到horizon的时间长度内,把奖励进行折扣所获得的收益。这里有一个叠加系数γ,越往后的奖励的的折扣越多,因为我们更希望得到现有的奖励。状态的价值:在某一个时刻t,在状态s下所期望的回报是:从这个状态开始的未来期望累积回报折扣系数γ∈[0,1]可以避免无穷的奖励未来是不确定的希望尽可能快的获得奖励。原创 2023-09-25 19:49:54 · 160 阅读 · 0 评论 -
深度强化学习(二)统计、概率与随机过程普及
弱大数定律说明,当n趋向于无穷时,独立同分布的随机变量的期望接近于它的平均值。伯努利大数定律描述了实验次数很大时,事件频率很大接近于事件的概率。原创 2023-09-25 11:04:25 · 114 阅读 · 0 评论 -
深度强化学习(一)常识性普及
强化学习(Reinforcement Learning)注重让参与者(Agent)在与环境的互动中进行目标导向型学习。参与者可以根据当前所处的环境(State)以及某一个行动策略(policy)来U型俺去一个行动(Action)来与环境进行一系列的互动。有一些互动可以立即从环境中获取奖励(Reward),并且改变环境的状态,甚至可以改变后续的奖励;但是有一些互动可能会存在延迟。并且这些奖励有正向的也有负向的。原创 2023-09-24 20:49:33 · 211 阅读 · 0 评论