自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 PyTorch模型的定义

介绍了PyTorch模型的三种定义方式,如何利用模型块快速搭建复杂网络;PyTorch修改模型的三种方式以及模型的保存与读取。

2022-10-16 22:09:39 917 1

原创 Pytorch

数据读入是通过Dataset+DataLoader的方式完成,Dataset定义数据的格式和数据变换形式,DataLoader用iterative的方式不断读入批次数据;对数据预处理(格式统一和必要的数据变换)——>选择模型(设定损失函数和优化方法以及对应的超参数)——>用模型去拟合训练集数据,宁在验证集/训练集上计算模型表现;下面构造的MyLayer类通过继承Module类自定义了一个将输入减掉均值后输出的层,并将层的计算定义在了forward函数里,这个层不含模型参数;_len_:返回数据集的样本数;

2022-10-13 22:00:04 274

原创 吃瓜(西瓜书-南瓜书)1、2章

可以把学习过程看作一个在所有假设组成的空间力进行搜索的过程,搜索目标是找到与训练集“匹配”的假设,假设的表示一旦确定,假设的空间和规模大小就确定了;从数据中学得模型的过程称为“学习”or“训练”,训练数据中的每个样本称为训练样本,样本组成的集合称为训练集;归纳偏好对应了学习算法本身所做出的关于“什么样的模型更好”的假设,算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。一般的,我们把学习器的实际预测输出与样本的真实输出之间的差异称为误差,学习器在训练集上的误差称为经验误差;...

2022-08-16 23:30:06 664

原创 DDPG算法

在连续控制领域,深度确定性策略梯度(Deep Deterministic Policy Gradient)是比较经典的强化学习算法;Deep:使用神经网络;Deterministic:表示DDPG输出的是一个确定性动作,用于连续动作的环境;Policy Gradient:表示使用策略网络,REINFORCE算法每隔一个episode更新一次,但DDPG网络是每个step更新一次policy网络;...

2022-07-27 22:53:13 1019

原创 Sparse Reward

rewardshaping在agent与environment交互时,人为设置的reward,从而指挥agent,告诉其采取哪一个action最优,而这个reward不是environment对应的reward,这样可以提高estimateQ-function时的准确性。总而言之,是从目标反推。curriculumlearning一种广义的用在RL训练agent的方法,其在input训练数据的时候,采取由易到难的顺序进行input,也就是认识设计它的学习过程。...

2022-07-26 00:16:20 194

原创 DQN(基本概念和进阶技巧)

与神经网络技术,并采用了目标网络和经历回放的方法进行网络的训练。在Q-learning中,使用表格来存储每个状态s下采取动作a获得的奖励,即状态-动作值函数Q(s,a)。,但是在较为复杂的任务上,会使用卷积神经网络来拟合从图像来拟合从图像到价值函数的映射。DQN只能处理有限动作值,通常用于处理离散动作空间的任务。其中,s,a分别是状态s和动作a的向量表示;DQN算法的核心是维护Q函数并使用进行决策。的函数,如神经网络,输出一个实数,称为。下的动作价值函数,每次到达一个状态。之后,遍历整个动作空间,使用让。.

2022-07-24 00:12:49 3194

原创 强化学习之策略梯度及PPO算法

在一个试验里,环境是一个函数,该函数一开始会输出一个状态s,演员看到输出状态后会突出行为a,把环境输出的s与演员输出的行为a串起来,称为一个轨迹;agent的行为由演员自己控制,随着行为的不同,同样的轨迹,会有不同的出现概率。1.两者更新频率不同,蒙特卡洛强化学习方法是每个episode更新一次,需要经历完整的状态序列后再更新,时序差分是每个step更新一次,时序差分更新频率更快;环境和奖励函数是在开始之前事先给定的,能做的是调整策略使演员得到最大的奖励,策略决定了演员的行为。###演员跟环境的互动。...

2022-07-19 22:45:10 288

原创 强化学习2

首先,有些马尔科夫过程是带环的,它并没有终结,想避免这个无穷的奖励;另外,我们是想把这个不确定性也表示出来,希望尽可能快地得到奖励,而不是在未来某一个点的奖励,而不是我们后面再得到奖励;有时候系数也可以设为0,比如设0只关注当前奖励,设1表示未来获得的奖励与当前获得的奖励一样。如果某一个过程满足马尔科夫性质,就是说未来的转移与过去是独立的,只取决于现在。定义了当前状态与未来状态的迭关系,表示当前状态的值函数可以通过下一个状态的值函数来计算,该式子也叫“动态规划方程”。##马尔科夫奖励过程(MRP)...

2022-07-15 23:38:19 75

原创 强化学习基础

摘要:本文是强化学习的基础内容介绍,包括其概述、序列决策、动作空间、实验等内容,可供初学者学习。

2022-07-12 22:14:17 576

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除