自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 强化学习笔记2--基本概念

基本概念 链接: link.

2021-10-29 10:48:37 108

原创 机场图讲解

http://www.360doc.com/content/20/0912/18/20989025_935307439.shtml

2021-10-23 16:26:56 279

原创 强化学习5——确定性策略

用于估计动作-值函数Qπ(s,a)Q^\pi(s,a)Qπ(s,a) Qμ(s,a)Q^\mu(s,a)Qμ(s,a)的策略估计方法,例如蒙特卡洛估计以及temporal-difference learning。policy改进方法根据(估计的)动作-价值函数更新policy。最常见的方法是动作-价值函数的greedy maximisation(或soft maximisation) : μk+1=argmaxQμk(s,a) \mu^{k+1}=argmaxQ^{\mu^k}(s,a) μk+1=argm

2021-10-19 14:56:31 646 1

原创 强化学习笔记4--actor critic

本文章为学习李宏毅老师视频的学习笔记,视频链接 采样会导致不稳定,直接估计G的期望值,用期望值代替sample的值 状态值函数与状态动作值函数,estimate value function --> TD比较稳,MC比较精确 Vπ(θ)(stn)V^{\pi(\theta)}(s_t^n)Vπ(θ)(stn​)是Qπ(θ)(stn,atn)Q^{\pi(\theta)}(s_t^n,a_t^n)Qπ(θ)(stn​,atn​)的期望 AC A3C 22:19然后也就没听了,下次见家人们.

2021-10-19 10:27:46 79

原创 强化学习笔记3---policy gradient基本概念

本文章为学习李宏毅老师视频的学习笔记,视频链接 调整theta,就可以调整选择trajectory的概率 只能求出该路径奖励的期望值,方法是穷举所有路径并将奖励值加和 这么复杂的推导,咱们就是说瞟一眼就可以了,就是求reward的梯度 theta更新过程,η\etaη 是学习率 sample的概念。R(τn)R(\tau ^n)R(τn) 是整场游戏采取aaa的奖励 为了增加sample的正确率,可以将某些reward改为负。增添加baseline来实现,即bbb。最简单的方式即b=E(R(.

2021-10-18 21:11:21 388 3

原创 tensorflow学习笔记

tf.placeholder tf.placeholder( dtype, shape=None, name=None ) 实例: self.tfs = tf.placeholder(tf.float32, [None, S_DIM], 'state') None表示长度待定 tf.reduce_mean 用于计算张量tensor沿着指定的数轴(tensor的某一维度)上的的平均值,主要用作降维或者计算tensor(图像)的平均值。 reduce_mean(input_t.

2021-10-12 16:13:54 217

原创 python学习笔记1

键必须是唯一的,但值则不必。 d = {key1 : value1, key2 : value2, key3 : value3 } 例子: dict1 = { 'abc': 456 } dict2 = { 'abc': 123, 98.6: 37 }

2021-10-11 14:39:21 1124

原创 强化学习笔记1——ppo算法

why PPO? 根据 OpenAI 的官方博客, PPO 已经成为他们在强化学习上的默认算法. 如果一句话概括 PPO: OpenAI 提出的一种解决 Policy Gradient 不好确定 Learning rate (或者 Step size) 的问题. 因为如果 step size 过大, 学出来的 Policy 会一直乱动, 不会收敛, 但如果 Step Size 太小, 对于完成训练, 我们会等到绝望. PPO 利用 New Policy 和 Old Policy 的比例, 限制了 New .

2021-10-11 11:34:18 4529

原创 python数据处理学习笔记

numpy.delete(arr,obj,axis=None) arr:输入向量 obj:表明哪一个子向量应该被移除。可以为整数或一个int型的向量 axis:表明删除哪个轴的子向量,若默认,则返回一个被拉平的向量 >>> data=np.array([[1,2,3],[2,3,4],[4,5,6]]) >>> data array([[1, 2, 3], [2, 3, 4], [4, 5, 6]]) >>> np.delet

2021-07-13 20:48:42 742

原创 python更改csv序号从1开始

data = pd.DataFrame({"故障等级":rr,"任务到达时间":DD,"任务截止期限":dd,"机器人准备时长":tt,"任务执行时长":TT}) data.index = np.arange(1, len(data)+1) #将表的序号改为以1开头 data.to_csv(r"E:/这是科研/均衡化调度/实验1/data.csv", sep=',', encoding = 'gbk',index_label='data.index') 也可以不要序号 index=False ...

2021-06-16 11:01:18 1971

原创 深度学习与自然语言处理第三次作业

深度学习与自然语言处理作业——在给定的数据库上利用Topic Model做无监督学习,学习到主题的分布。可以在数据库中随机选定K本小说,在每本小说中随机抽出M个段落作为训练数据,并抽出N个段落作为测试,利用topic model和其他的分类器对给定的段落属于哪一本小说进行分类。 其中K至少为3. ...

2021-04-28 22:57:11 271 1

原创 深度学习与自然语言处理——第一次作业

深度学习与自然语言处理——第一次作业 文章目录一、实验题目二、实验过程1.中文语料预处理2.词频统计3.计算信息熵实验结果实验代码 一、实验题目 首先阅读https://docs.qq.com/pdf/DUUR2Z1FrYUVqU0ts文章,参考文章来计算所提供数据库中文的平均信息熵。 二、实验过程 1.中文语料预处理 由于一元模型不需要考虑上下文关系,所以其读取语料的方式与二元模型和三元模型不一样,直接将文件夹中的txt文件合并写入一个文件中,再通过jieba进行分词,得到所需要的txt格式语料库。

2021-04-15 09:35:52 884 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除