![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
科研
HCH996
一边失去,一边在寻找~
展开
-
数据处理
在pg_single上震荡系数设置大一些 收敛更快一些 在ppo_single上震荡系数小 收敛更快一些 在ac_single在ppo_single的基础上更快收敛 收敛更快一些 如何对比呢?三张图单线程对比 单-多对比 多线程对比 对于时间1 11218 2 8225 3 19429 4 14719 5 12160 6 22315 ...原创 2021-01-24 21:53:05 · 123 阅读 · 0 评论 -
2021-01-21
SpringApplication.run()方法里调用refreshContext()(刷新容器) 回去解释注解@SpringBootApplication通过配置文件等一系列的形式把该注入的bean都注入进来读配置文件 扫描注解并解释注解(启动类上的注解@SpringBootApplication)解释注解都是需要执行一定的方法的, 点进@SpringBootApplication去查看@ConditionalIbClass:当类路径下存在对应的类时会被引入(如果引入了就会有,.原创 2021-01-22 23:20:06 · 67 阅读 · 0 评论 -
大论文构思
在CloudSimPy-master中把pg算法的以时间为目标的实验做完原创 2021-01-21 20:20:26 · 152 阅读 · 0 评论 -
CoudSimPyEnergy代码解读
_sum_of_rewards(self, rewards_n)计算q_n1. reward_to_to = False直接利用折扣累积奖励回报值替代 梯度计算公式为2.reward_to_to = True_compute_advantage(self, q_n)根据q_n计算优势函数 adv_n: 二维数据,需要减去跨行的平均值axis=0, 对应多条轨迹的平均值estimate_return(self, rewards_n)返回q_n ,以及归一化后的...原创 2021-01-14 10:32:22 · 206 阅读 · 0 评论 -
DoubleDQN
实现时,重写target的计算方法,注意张量的切片使用的是gather函数, 而不是迭代 # q_target = reward + gamma * max(q_next) with tf.variable_scope('dd_q_target'): a_ = tf.argmax(self.e_next, 1) # 注意切片函数 q_ = tf.gather(self.q_next, a_ , ax原创 2021-01-13 18:16:44 · 127 阅读 · 0 评论 -
A2C和A3C
A2CAdvantage Actor-Critic是一个随机变量,在采样数据不非常充足的情况下,方差会很大,如何提高训练的稳定性呢?直接估算G的期望值, 让期望值去代替采样到的值。在Q-learning中有两种Critic用MC会更精确但TD会更稳定。上图在实做时需要训练两个网络Q和V, 更大可能性的引入估算的偏差, 如何转换为只估算一个网络呢?只需要估算一个V就可以,但坏处是会引入一定的随机性, 因为引入了.先用TD或者MC去估算, 再用去更新得到新...原创 2021-01-10 21:56:18 · 1670 阅读 · 1 评论 -
Q-learning
一、Critic之Critic:不直接采取行为,而只是用来评判行为的好坏:在当前状态当应用动作,预期到回合结束的累积期望奖励和如何衡量呢? 两种方式1. Monte-Carlo蒙特卡洛方法让Critic观察策略玩游戏,是一个网络,训练过程是一个回归问题(希望)和越接近越好。2. TDBased方法在MC中要把整个回合结束、才能计算奖励总和,再估算,但在某些场景中,回合持续时间较长,需要消耗大量时间搜集资料。而在TD中,只要看到,就能进行学习。按照两值相减的值和..原创 2021-01-10 12:16:40 · 675 阅读 · 0 评论 -
PPO算法
在线学习和离线学习在线学习:和环境互动的Agent以及和要学习的Agent是同一个, 同一个Agent,一边和环境做互动,一边在学习。 离线学习:和环境互动及的Agent以和要学习的Agent不是同一个,学习的Agent通过看别人完来学习。利用新的参数去采样一次,然后更新多次。那么怎么做呢?利用重要性采样的方法。重要性采样表示从分布中采样数据,但如果我们无法从分布中采样数据,只能从另一个分布中采样。对期望值进行修正然后可以改成对分布中的取期望值。从分布中采样数据, .原创 2021-01-09 22:03:43 · 2704 阅读 · 2 评论 -
CloudSimPy
特征提取方面: 共8个参数DRL.py之中的extract_features <machine + task>machine: cpu, memory, powerpower的归一化公式( (pow - 45) / 627task: 在feature_function.py中 : [cpu, memory, duration, task.waiting_task_instances_number]...原创 2020-12-23 09:39:58 · 572 阅读 · 0 评论