自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 First visit and every visit MC

今天写RL中的MC算法的时候,卡在了First visit和Every visit这两种算法的区别上。一直没搞懂什么意思这里因为有多个episode,每一个episode中使用第一次出现的Q(S,A)当做这个episode中的Q值,对多个episode中出现的Q(S,A)求和,然后分母是有多少个episode含有这个pair(S,A)下面附上转载的代码: updated_values = {} ### PUT YOUR CODE HERE ### .

2022-03-29 21:58:59 655 1

原创 Q learning

今天继续写RL的exercise2,发现Q learning一直不收敛。本来就是个很简单的算法,改了好久都不知道fault在哪里,一开始以为是超参数调的不好,结果调了好久的参数都不行。后来发现自己犯了个错误:target = reward + int(done) * self.gamma * max_action_qnew_estimate = old_estimate + self.alpha * (target - old_estimate)注意这里,不应该是int(done),int(n

2022-03-27 16:24:53 424

原创 MDP, Value iteration and Policy Iteration

今天抽空写了写之前RL旁听课的exercise1,主要包含了马尔科夫决策过程,值迭代以及策略迭代。具体的伪代码略,下面直接附上代码from abc import ABC, abstractmethodimport numpy as npfrom typing import List, Tuple, Dict, Optional, Hashablefrom rl2021.utils import MDP, Transition, State, Actionclass MDPSolver

2022-03-24 21:54:29 1203

原创 [2021-10-15] Residual Attention Network in Image Classification PyTorch 小结

Residual Attention Network in Image Classification PyTorch 小结Residual Attention Network整体的网络结构Attention ModuleResidual Attention Network论文地址: http://openaccess.thecvf.com/content_cvpr_2017/html/Wang_Residual_Attention_Network_CVPR_2017_paper.html整体的网络结构

2021-10-15 10:38:45 391

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除