Shezzaaaa-CSDN博客

原创机场图讲解

http://www.360doc.com/content/20/0912/18/20989025_935307439.shtml

2021-10-23 16:26:56 279

用于估计动作-值函数Qπ(s,a)Q^\pi(s,a)Qπ(s,a) Qμ(s,a)Q^\mu(s,a)Qμ(s,a)的策略估计方法，例如蒙特卡洛估计以及temporal-difference learning。policy改进方法根据(估计的)动作-价值函数更新policy。最常见的方法是动作-价值函数的greedy maximisation(或soft maximisation) ： μk+1=argmaxQμk(s,a) \mu^{k+1}=argmaxQ^{\mu^k}(s,a) μk+1=argm

2021-10-19 14:56:31 646 1

原创强化学习笔记4--actor critic

本文章为学习李宏毅老师视频的学习笔记，视频链接采样会导致不稳定，直接估计G的期望值，用期望值代替sample的值状态值函数与状态动作值函数，estimate value function --> TD比较稳，MC比较精确 Vπ(θ)(stn)V^{\pi(\theta)}(s_t^n)Vπ(θ)(stn)是Qπ(θ)(stn,atn)Q^{\pi(\theta)}(s_t^n,a_t^n)Qπ(θ)(stn,atn)的期望 AC A3C 22:19然后也就没听了，下次见家人们.

2021-10-19 10:27:46 79

原创强化学习笔记3---policy gradient基本概念

本文章为学习李宏毅老师视频的学习笔记，视频链接调整theta，就可以调整选择trajectory的概率只能求出该路径奖励的期望值，方法是穷举所有路径并将奖励值加和这么复杂的推导，咱们就是说瞟一眼就可以了，就是求reward的梯度 theta更新过程，η\etaη 是学习率 sample的概念。R(τn)R(\tau ^n)R(τn) 是整场游戏采取aaa的奖励为了增加sample的正确率，可以将某些reward改为负。增添加baseline来实现，即bbb。最简单的方式即b=E(R(.

2021-10-18 21:11:21 388 3

原创 tensorflow学习笔记

tf.placeholder tf.placeholder( dtype, shape=None, name=None ) 实例： self.tfs = tf.placeholder(tf.float32, [None, S_DIM], 'state') None表示长度待定 tf.reduce_mean 用于计算张量tensor沿着指定的数轴（tensor的某一维度）上的的平均值，主要用作降维或者计算tensor（图像）的平均值。 reduce_mean(input_t.

2021-10-12 16:13:54 217

原创 python学习笔记1

键必须是唯一的，但值则不必。 d = {key1 : value1, key2 : value2, key3 : value3 } 例子： dict1 = { 'abc': 456 } dict2 = { 'abc': 123, 98.6: 37 }

2021-10-11 14:39:21 1124

原创强化学习笔记1——ppo算法

why PPO？根据 OpenAI 的官方博客, PPO 已经成为他们在强化学习上的默认算法. 如果一句话概括 PPO: OpenAI 提出的一种解决 Policy Gradient 不好确定 Learning rate (或者 Step size) 的问题. 因为如果 step size 过大, 学出来的 Policy 会一直乱动, 不会收敛, 但如果 Step Size 太小, 对于完成训练, 我们会等到绝望. PPO 利用 New Policy 和 Old Policy 的比例, 限制了 New .

2021-10-11 11:34:18 4529

原创 python数据处理学习笔记

numpy.delete(arr,obj,axis=None) arr:输入向量 obj:表明哪一个子向量应该被移除。可以为整数或一个int型的向量 axis:表明删除哪个轴的子向量，若默认，则返回一个被拉平的向量 >>> data=np.array([[1,2,3],[2,3,4],[4,5,6]]) >>> data array([[1, 2, 3], [2, 3, 4], [4, 5, 6]]) >>> np.delet

2021-07-13 20:48:42 742

原创 python更改csv序号从1开始

data = pd.DataFrame({"故障等级":rr,"任务到达时间":DD,"任务截止期限":dd,"机器人准备时长":tt,"任务执行时长":TT}) data.index = np.arange(1, len(data)+1) #将表的序号改为以1开头 data.to_csv(r"E:/这是科研/均衡化调度/实验1/data.csv", sep=',', encoding = 'gbk',index_label='data.index') 也可以不要序号 index=False ...

2021-06-16 11:01:18 1971

原创深度学习与自然语言处理第三次作业

深度学习与自然语言处理作业——在给定的数据库上利用Topic Model做无监督学习，学习到主题的分布。可以在数据库中随机选定K本小说，在每本小说中随机抽出M个段落作为训练数据，并抽出N个段落作为测试，利用topic model和其他的分类器对给定的段落属于哪一本小说进行分类。其中K至少为3. ...

2021-04-28 22:57:11 271 1

原创深度学习与自然语言处理——第一次作业

深度学习与自然语言处理——第一次作业文章目录一、实验题目二、实验过程1.中文语料预处理2.词频统计3.计算信息熵实验结果实验代码一、实验题目首先阅读https://docs.qq.com/pdf/DUUR2Z1FrYUVqU0ts文章，参考文章来计算所提供数据库中文的平均信息熵。二、实验过程 1.中文语料预处理由于一元模型不需要考虑上下文关系，所以其读取语料的方式与二元模型和三元模型不一样，直接将文件夹中的txt文件合并写入一个文件中，再通过jieba进行分词，得到所需要的txt格式语料库。

2021-04-15 09:35:52 884 4

qq_41537299的博客

原创强化学习笔记2--基本概念