- 博客(12)
- 收藏
- 关注
原创 强化学习5——确定性策略
用于估计动作-值函数Qπ(s,a)Q^\pi(s,a)Qπ(s,a) Qμ(s,a)Q^\mu(s,a)Qμ(s,a)的策略估计方法,例如蒙特卡洛估计以及temporal-difference learning。policy改进方法根据(估计的)动作-价值函数更新policy。最常见的方法是动作-价值函数的greedy maximisation(或soft maximisation) :μk+1=argmaxQμk(s,a)\mu^{k+1}=argmaxQ^{\mu^k}(s,a)μk+1=argm
2021-10-19 14:56:31
732
1
原创 强化学习笔记4--actor critic
本文章为学习李宏毅老师视频的学习笔记,视频链接采样会导致不稳定,直接估计G的期望值,用期望值代替sample的值状态值函数与状态动作值函数,estimate value function --> TD比较稳,MC比较精确Vπ(θ)(stn)V^{\pi(\theta)}(s_t^n)Vπ(θ)(stn)是Qπ(θ)(stn,atn)Q^{\pi(\theta)}(s_t^n,a_t^n)Qπ(θ)(stn,atn)的期望ACA3C22:19然后也就没听了,下次见家人们.
2021-10-19 10:27:46
128
原创 强化学习笔记3---policy gradient基本概念
本文章为学习李宏毅老师视频的学习笔记,视频链接调整theta,就可以调整选择trajectory的概率只能求出该路径奖励的期望值,方法是穷举所有路径并将奖励值加和这么复杂的推导,咱们就是说瞟一眼就可以了,就是求reward的梯度theta更新过程,η\etaη 是学习率sample的概念。R(τn)R(\tau ^n)R(τn) 是整场游戏采取aaa的奖励为了增加sample的正确率,可以将某些reward改为负。增添加baseline来实现,即bbb。最简单的方式即b=E(R(.
2021-10-18 21:11:21
447
3
原创 tensorflow学习笔记
tf.placeholdertf.placeholder( dtype, shape=None, name=None)实例:self.tfs = tf.placeholder(tf.float32, [None, S_DIM], 'state')None表示长度待定tf.reduce_mean用于计算张量tensor沿着指定的数轴(tensor的某一维度)上的的平均值,主要用作降维或者计算tensor(图像)的平均值。reduce_mean(input_t.
2021-10-12 16:13:54
278
原创 python学习笔记1
键必须是唯一的,但值则不必。d = {key1 : value1, key2 : value2, key3 : value3 }例子:dict1 = { 'abc': 456 }dict2 = { 'abc': 123, 98.6: 37 }
2021-10-11 14:39:21
1169
原创 强化学习笔记1——ppo算法
why PPO?根据 OpenAI 的官方博客, PPO 已经成为他们在强化学习上的默认算法. 如果一句话概括 PPO: OpenAI 提出的一种解决 Policy Gradient 不好确定 Learning rate (或者 Step size) 的问题. 因为如果 step size 过大, 学出来的 Policy 会一直乱动, 不会收敛, 但如果 Step Size 太小, 对于完成训练, 我们会等到绝望. PPO 利用 New Policy 和 Old Policy 的比例, 限制了 New .
2021-10-11 11:34:18
5189
原创 python数据处理学习笔记
numpy.delete(arr,obj,axis=None)arr:输入向量obj:表明哪一个子向量应该被移除。可以为整数或一个int型的向量axis:表明删除哪个轴的子向量,若默认,则返回一个被拉平的向量>>> data=np.array([[1,2,3],[2,3,4],[4,5,6]])>>> dataarray([[1, 2, 3], [2, 3, 4], [4, 5, 6]])>>> np.delet
2021-07-13 20:48:42
835
原创 python更改csv序号从1开始
data = pd.DataFrame({"故障等级":rr,"任务到达时间":DD,"任务截止期限":dd,"机器人准备时长":tt,"任务执行时长":TT})data.index = np.arange(1, len(data)+1) #将表的序号改为以1开头data.to_csv(r"E:/这是科研/均衡化调度/实验1/data.csv", sep=',', encoding = 'gbk',index_label='data.index')也可以不要序号index=False...
2021-06-16 11:01:18
2111
原创 深度学习与自然语言处理第三次作业
深度学习与自然语言处理作业——在给定的数据库上利用Topic Model做无监督学习,学习到主题的分布。可以在数据库中随机选定K本小说,在每本小说中随机抽出M个段落作为训练数据,并抽出N个段落作为测试,利用topic model和其他的分类器对给定的段落属于哪一本小说进行分类。 其中K至少为3....
2021-04-28 22:57:11
321
1
原创 深度学习与自然语言处理——第一次作业
深度学习与自然语言处理——第一次作业文章目录一、实验题目二、实验过程1.中文语料预处理2.词频统计3.计算信息熵实验结果实验代码一、实验题目首先阅读https://docs.qq.com/pdf/DUUR2Z1FrYUVqU0ts文章,参考文章来计算所提供数据库中文的平均信息熵。二、实验过程1.中文语料预处理由于一元模型不需要考虑上下文关系,所以其读取语料的方式与二元模型和三元模型不一样,直接将文件夹中的txt文件合并写入一个文件中,再通过jieba进行分词,得到所需要的txt格式语料库。
2021-04-15 09:35:52
1043
4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅