强化学习
hanx0204
这个作者很懒,什么都没留下…
展开
-
Bert 文本对齐
搜了半天的Bert文本对齐方法发现还没Huggingface的transformers里的方法好用from transformers import BertTokenizertokenizer = BertTokenizer.from_pretrained("bert-base-cased")sequence_a = "This is a short sequence."sequence_b = "This is a rather long sequence. It is at least原创 2021-07-18 17:07:23 · 523 阅读 · 0 评论 -
Mujoco安装 最简单方法
试了很多种方法, 现在总结出来一种最简单的方式申请账号什么的就不说了需求: python >= 3.71. 下载mujoco_200 放在~/.mujoco文件夹下面, 把mjkey.key放在对应位置2. pip安装mujoco-py里面的requirements.txt 和requirement.dev.txt3. 使用pip install mujoco_py==2.0.2.8安装mujoco_py, 安装gym==0.17.0, 添加环境变量vim ~/.bashrc原创 2021-01-31 20:28:52 · 3328 阅读 · 0 评论 -
Pearl
用task encoding解决一下问题:如何从过去学习的任务中针对新的任务获取有效的信息 如何对新任务的uncertainty作出更准确的判断背景: 借用了POMDP的状态推理与学习分开的思想; 使用了SAC框架主要工作:本文Meta-learning的流程为,通过Meta-training过程,对过去积累的tasks experience进行encoding,相当于train出一个task encoder。随后,在Meta-testing的过程中,利用encoder来encodi..原创 2020-10-27 15:42:16 · 219 阅读 · 0 评论 -
Distral: Robust multitask reinforcement learning.
作者:张楚珩链接:https://zhuanlan.zhihu.com/p/51091244来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。中Distral是Distill & transfer learning的缩写。原文传送门Teh, Yee, et al. "Distral: Robust multitask reinforcement learning." Advances in Neural Information Processing .转载 2020-10-14 21:17:13 · 788 阅读 · 0 评论 -
强化学习@AAAI2019
Fully Convolutional Network with Multi-Step Reinforcement Learning for Image Processing具有多步强化学习的全卷积网络用于图像处理Ryosuke Furuta@The University of TokyoNaoto Inoue@The University of TokyoToshihiko Yamasaki@The University of Tokyo古田凉介@东京大学井上直人@东京大学山崎俊彦@东京大学AAA原创 2020-10-08 16:50:45 · 9560 阅读 · 0 评论 -
2020-08-20 One-Shot Visual Imitation Learning via Meta-Learning 中的双头网络的理解
以下内容来自这个blog4.1Two-Head Architecture: Meta-Learning a Loss for Fast Adaptation 在标准的MAML框架中,在“前梯度更新”和“后梯度更新”中,使用的网络是相同的,都输出的是action,并且都使用标准的loss function。本文中,我们做出了这样的尝试:“前梯度更新”和“后梯度更新”依旧共用前面所有的架构,只是输出动作之前的最后一个隐藏层不再共享,而是一人一个隐藏层,称之为两个不同的“head”。【这里的prea..转载 2020-08-20 16:30:34 · 258 阅读 · 0 评论 -
Deepmimic安装 避坑指北
系统环境: ubuntu18.04python环境:anaconda创建的虚拟环境,预装tf14和pytorch1.15第一坑:makefile设置以下仅适用于conda环境:EIGEN_DIR = /home/***your path***/eigen-eigen-323c052e1731BULLET_INC_DIR = /home/***your path***/bullet3-2.88/srcPYTHON_INC = /home/***yuor username***/...原创 2020-08-01 15:14:23 · 533 阅读 · 1 评论 -
实现sutton强化学习引论中的k摇臂赌博机问题
from numpy import randomimport matplotlib.pyplot as pltK = [1,2,3,4,5] # 总共的摇臂数有5个R = {1:2,2:3,3:5,4:1,5:9} # 各个摇臂对应的奖赏prob = {1:0.6,2:0.5,3:0.2,4:0.7,5:0.05} #各个摇臂对应的概率吐币的概率T = 2000count = ...原创 2019-09-23 16:52:36 · 178 阅读 · 0 评论