- 博客(12)
- 收藏
- 关注
原创 强化学习5——确定性策略
用于估计动作-值函数Qπ(s,a)Q^\pi(s,a)Qπ(s,a) Qμ(s,a)Q^\mu(s,a)Qμ(s,a)的策略估计方法,例如蒙特卡洛估计以及temporal-difference learning。policy改进方法根据(估计的)动作-价值函数更新policy。最常见的方法是动作-价值函数的greedy maximisation(或soft maximisation) : μk+1=argmaxQμk(s,a) \mu^{k+1}=argmaxQ^{\mu^k}(s,a) μk+1=argm
2021-10-19 14:56:31 646 1
原创 强化学习笔记4--actor critic
本文章为学习李宏毅老师视频的学习笔记,视频链接 采样会导致不稳定,直接估计G的期望值,用期望值代替sample的值 状态值函数与状态动作值函数,estimate value function --> TD比较稳,MC比较精确 Vπ(θ)(stn)V^{\pi(\theta)}(s_t^n)Vπ(θ)(stn)是Qπ(θ)(stn,atn)Q^{\pi(\theta)}(s_t^n,a_t^n)Qπ(θ)(stn,atn)的期望 AC A3C 22:19然后也就没听了,下次见家人们.
2021-10-19 10:27:46 79
原创 强化学习笔记3---policy gradient基本概念
本文章为学习李宏毅老师视频的学习笔记,视频链接 调整theta,就可以调整选择trajectory的概率 只能求出该路径奖励的期望值,方法是穷举所有路径并将奖励值加和 这么复杂的推导,咱们就是说瞟一眼就可以了,就是求reward的梯度 theta更新过程,η\etaη 是学习率 sample的概念。R(τn)R(\tau ^n)R(τn) 是整场游戏采取aaa的奖励 为了增加sample的正确率,可以将某些reward改为负。增添加baseline来实现,即bbb。最简单的方式即b=E(R(.
2021-10-18 21:11:21 388 3
原创 tensorflow学习笔记
tf.placeholder tf.placeholder( dtype, shape=None, name=None ) 实例: self.tfs = tf.placeholder(tf.float32, [None, S_DIM], 'state') None表示长度待定 tf.reduce_mean 用于计算张量tensor沿着指定的数轴(tensor的某一维度)上的的平均值,主要用作降维或者计算tensor(图像)的平均值。 reduce_mean(input_t.
2021-10-12 16:13:54 217
原创 python学习笔记1
键必须是唯一的,但值则不必。 d = {key1 : value1, key2 : value2, key3 : value3 } 例子: dict1 = { 'abc': 456 } dict2 = { 'abc': 123, 98.6: 37 }
2021-10-11 14:39:21 1124
原创 强化学习笔记1——ppo算法
why PPO? 根据 OpenAI 的官方博客, PPO 已经成为他们在强化学习上的默认算法. 如果一句话概括 PPO: OpenAI 提出的一种解决 Policy Gradient 不好确定 Learning rate (或者 Step size) 的问题. 因为如果 step size 过大, 学出来的 Policy 会一直乱动, 不会收敛, 但如果 Step Size 太小, 对于完成训练, 我们会等到绝望. PPO 利用 New Policy 和 Old Policy 的比例, 限制了 New .
2021-10-11 11:34:18 4529
原创 python数据处理学习笔记
numpy.delete(arr,obj,axis=None) arr:输入向量 obj:表明哪一个子向量应该被移除。可以为整数或一个int型的向量 axis:表明删除哪个轴的子向量,若默认,则返回一个被拉平的向量 >>> data=np.array([[1,2,3],[2,3,4],[4,5,6]]) >>> data array([[1, 2, 3], [2, 3, 4], [4, 5, 6]]) >>> np.delet
2021-07-13 20:48:42 742
原创 python更改csv序号从1开始
data = pd.DataFrame({"故障等级":rr,"任务到达时间":DD,"任务截止期限":dd,"机器人准备时长":tt,"任务执行时长":TT}) data.index = np.arange(1, len(data)+1) #将表的序号改为以1开头 data.to_csv(r"E:/这是科研/均衡化调度/实验1/data.csv", sep=',', encoding = 'gbk',index_label='data.index') 也可以不要序号 index=False ...
2021-06-16 11:01:18 1971
原创 深度学习与自然语言处理第三次作业
深度学习与自然语言处理作业——在给定的数据库上利用Topic Model做无监督学习,学习到主题的分布。可以在数据库中随机选定K本小说,在每本小说中随机抽出M个段落作为训练数据,并抽出N个段落作为测试,利用topic model和其他的分类器对给定的段落属于哪一本小说进行分类。 其中K至少为3. ...
2021-04-28 22:57:11 271 1
原创 深度学习与自然语言处理——第一次作业
深度学习与自然语言处理——第一次作业 文章目录一、实验题目二、实验过程1.中文语料预处理2.词频统计3.计算信息熵实验结果实验代码 一、实验题目 首先阅读https://docs.qq.com/pdf/DUUR2Z1FrYUVqU0ts文章,参考文章来计算所提供数据库中文的平均信息熵。 二、实验过程 1.中文语料预处理 由于一元模型不需要考虑上下文关系,所以其读取语料的方式与二元模型和三元模型不一样,直接将文件夹中的txt文件合并写入一个文件中,再通过jieba进行分词,得到所需要的txt格式语料库。
2021-04-15 09:35:52 884 4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人