![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
深度学习基础
shinel`l
这个作者很懒,什么都没留下…
展开
-
Pytorch
数据读入是通过Dataset+DataLoader的方式完成,Dataset定义数据的格式和数据变换形式,DataLoader用iterative的方式不断读入批次数据;对数据预处理(格式统一和必要的数据变换)——>选择模型(设定损失函数和优化方法以及对应的超参数)——>用模型去拟合训练集数据,宁在验证集/训练集上计算模型表现;下面构造的MyLayer类通过继承Module类自定义了一个将输入减掉均值后输出的层,并将层的计算定义在了forward函数里,这个层不含模型参数;_len_:返回数据集的样本数;原创 2022-10-13 22:00:04 · 274 阅读 · 0 评论 -
DDPG算法
在连续控制领域,深度确定性策略梯度(Deep Deterministic Policy Gradient)是比较经典的强化学习算法;Deep:使用神经网络;Deterministic:表示DDPG输出的是一个确定性动作,用于连续动作的环境;Policy Gradient:表示使用策略网络,REINFORCE算法每隔一个episode更新一次,但DDPG网络是每个step更新一次policy网络;...原创 2022-07-27 22:53:13 · 1019 阅读 · 0 评论 -
Sparse Reward
rewardshaping在agent与environment交互时,人为设置的reward,从而指挥agent,告诉其采取哪一个action最优,而这个reward不是environment对应的reward,这样可以提高estimateQ-function时的准确性。总而言之,是从目标反推。curriculumlearning一种广义的用在RL训练agent的方法,其在input训练数据的时候,采取由易到难的顺序进行input,也就是认识设计它的学习过程。...原创 2022-07-26 00:16:20 · 195 阅读 · 0 评论 -
DQN(基本概念和进阶技巧)
与神经网络技术,并采用了目标网络和经历回放的方法进行网络的训练。在Q-learning中,使用表格来存储每个状态s下采取动作a获得的奖励,即状态-动作值函数Q(s,a)。,但是在较为复杂的任务上,会使用卷积神经网络来拟合从图像来拟合从图像到价值函数的映射。DQN只能处理有限动作值,通常用于处理离散动作空间的任务。其中,s,a分别是状态s和动作a的向量表示;DQN算法的核心是维护Q函数并使用进行决策。的函数,如神经网络,输出一个实数,称为。下的动作价值函数,每次到达一个状态。之后,遍历整个动作空间,使用让。.原创 2022-07-24 00:12:49 · 3196 阅读 · 0 评论 -
强化学习之策略梯度及PPO算法
在一个试验里,环境是一个函数,该函数一开始会输出一个状态s,演员看到输出状态后会突出行为a,把环境输出的s与演员输出的行为a串起来,称为一个轨迹;agent的行为由演员自己控制,随着行为的不同,同样的轨迹,会有不同的出现概率。1.两者更新频率不同,蒙特卡洛强化学习方法是每个episode更新一次,需要经历完整的状态序列后再更新,时序差分是每个step更新一次,时序差分更新频率更快;环境和奖励函数是在开始之前事先给定的,能做的是调整策略使演员得到最大的奖励,策略决定了演员的行为。###演员跟环境的互动。...原创 2022-07-19 22:45:10 · 289 阅读 · 0 评论 -
强化学习2
首先,有些马尔科夫过程是带环的,它并没有终结,想避免这个无穷的奖励;另外,我们是想把这个不确定性也表示出来,希望尽可能快地得到奖励,而不是在未来某一个点的奖励,而不是我们后面再得到奖励;有时候系数也可以设为0,比如设0只关注当前奖励,设1表示未来获得的奖励与当前获得的奖励一样。如果某一个过程满足马尔科夫性质,就是说未来的转移与过去是独立的,只取决于现在。定义了当前状态与未来状态的迭关系,表示当前状态的值函数可以通过下一个状态的值函数来计算,该式子也叫“动态规划方程”。##马尔科夫奖励过程(MRP)...原创 2022-07-15 23:38:19 · 75 阅读 · 0 评论 -
强化学习基础
摘要:本文是强化学习的基础内容介绍,包括其概述、序列决策、动作空间、实验等内容,可供初学者学习。原创 2022-07-12 22:14:17 · 578 阅读 · 0 评论