机器学习
猪蒙索洛夫
咸鱼划水
展开
-
【demo】DDQN玩gym之立木杆
import gymfrom contents.OpenAI_gym.my_rl_brain import Double_DQN_Agentmy_env = gym.make("CartPole-v0")my_env = my_env.unwrappedprint("observation:",my_env.observation_space)print("observatio...原创 2018-12-28 18:09:23 · 606 阅读 · 0 评论 -
【强化学习】知乎上David的笔记
知乎上的叶强大大写的笔记,感谢他的分享精神。作者链接:https://www.zhihu.com/people/qqiang00/posts?page=2写的很好,整理一下方便用讲解: 1.《强化学习》第一讲 简介: https://zhuanlan.zhihu.com/p/28084904 2.《强化学习》第二讲 马尔科夫决策过程 :https://zhuanlan.zhihu...转载 2018-12-24 09:51:54 · 2434 阅读 · 0 评论 -
【论文翻译】One-Shot Visual Imitation Learning via Meta-Learning
读这篇文章给我带来了不小的阻力,有两篇博客在理解上给了我很大的帮助和启发。谢谢他们,顺便附上链接: https://blog.csdn.net/u010909964/article/details/84501919 https://zhuanlan.zhihu.com/p/33248019 原作中有一些东西我没理解于是直接跳过。 Abstract:...翻译 2018-12-19 09:48:43 · 1729 阅读 · 0 评论 -
【AI2 THOR】环境使用说明
官方链接:http://ai2thor.allenai.org/tutorials/installation 安装: pip install ai2thor Before running the below code, make sure X server with OpenGL is running, and the OpenGL extensions have been inst...原创 2019-01-23 19:59:08 · 3942 阅读 · 2 评论 -
【Pycharm】小贴士
pycharm 选中单词在整个文件中高亮颜色调整: file>settings>editor>color scheme>general>code>identifier under caret>background,将background设置为你想要的颜色 ImportError: libcusolver.so.8.0: cannot op...原创 2019-01-26 16:10:46 · 187 阅读 · 0 评论 -
【Tensorflow】学习笔记
tf.stop_gradient() https://blog.csdn.net/u013745804/article/details/79589514 https://blog.csdn.net/zbrwhut/article/details/83341869 tf.Variable、tf.get_variable、tf.variable_scope以及tf.name_sc...原创 2019-01-27 15:53:37 · 167 阅读 · 0 评论 -
【论文翻译】Curiosity-driven Exploration by Self-supervised Prediction
Abstract 1. Introduction 2. Curiosity-Driven Exploration 2.1. Prediction error as curiosity reward 基于raw sensory space进行下一时刻的预测是不受欢迎的。因为“基于像素进行预测”能不能提供一个好的优化目标,这一点很难说。问题来了,我们基于什么进行...翻译 2019-01-17 09:35:37 · 1978 阅读 · 0 评论 -
【论文翻译】Distort-and-Recover: Color Enhancement using Deep Reinforcement Learning
ABSTRACT: 本文提出——人类修图是按照步骤逐渐进行的序列,于是用MDP建模,训练agent得到一个最优的动作序列。此外,我们提出了一种“失真-复原”训练方案,只需要高质量图像进行训练,而不需要“修改前后的图像对“。资料和代码在https://sites.google.com/view/distort-and-recover/可以找到。 论文地址https://...翻译 2019-04-02 21:25:33 · 1375 阅读 · 0 评论 -
【论文翻译】One-Shot Imitation from Observing Humans via Domain-Adaptive Meta-Learning
1. Introduction 人类和动物仅仅通过观察别人就能掌握行为的要点,并且能够对形态,背景,和任务细节的变化相当鲁棒。并且人类需要非常少量的示范就可以学会。机器如何获取这种能力? 解决“基于视觉输入的skill学习”有两个问题:(1)人类示范和机器人之间的“外貌和行为差异”引入了一个“系统域唯一的问题”,即对应问题。(2)从视觉输入进行学习需要大量的数据。本文中,我们使用met...翻译 2018-12-14 15:22:52 · 1357 阅读 · 1 评论 -
【论文翻译】One-Shot Imitation Learning
这篇论文看的想爆炸了。。context network实在是看不懂。。。。写了一半暂时放弃,有缘再回来继续嚼 Abstract 理想的情况是:agent可以从“关于给定任务的少量demonstration”中进行学习,并且泛化到相同任务的新情况,并且不需要特殊的工程。假设有一个任务集合(用桌上的木块搭建一个塔/用桌上的木块搭建两个塔),每个任务有许多实例(不同的实例意味着:木块具有不同的...翻译 2018-12-12 23:07:39 · 876 阅读 · 0 评论 -
【强化学习笔记】基于蒙特卡洛的强化学习算法
import numpy as npimport pandas as pdimport randomclass MC_RL(object): def __init__(self, states_list, action_lists, gamma): self.states = states_list self.actions = action_...原创 2018-11-13 21:49:00 · 1646 阅读 · 1 评论 -
【论文翻译】 Residual Networks Behave Like Ensembles of Relatively Shallow Networks
原文链接: See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/303409435 标题:Residual Networks Behave Like Ensembles of Relatively Sh...翻译 2018-10-06 14:10:53 · 1732 阅读 · 1 评论 -
【论文翻译】Target-driven Visual Navigation in Indoor Scenes using Deep Reinforcement Learning
摘要: 有两个关于深度强化学习的问题没有得到很好的解决: (1)缺乏对新目标的泛化能力 (2)数据效率低下,即,模型需要多次(而且往往代价高昂)反复试验和错误才能收敛,将其应用于实际场景是不切实际的。 在本文中,我们解决了这两个问题,并将我们的模型应用到目标驱动的视觉导航中。为了解决第一个问题,我们提出了一个actor-critic模型,它的策略是一个有关于目标和...翻译 2018-10-27 16:34:44 · 4001 阅读 · 13 评论 -
【论文翻译】Playing Atari with Deep Reinforcement Learning
摘要:我们第一个提出了"利用强化学习从高维输入中直接学习控制策略"的深度学习模型。该模型是一个卷积神经网络,经过Q-learning训练,输入为原始像素,输出为:“用来估计未来reward”的值函数。我们将我们的方法应用于游戏环境下的7款atari 2600游戏,没有调整过架构或学习算法。我们发现它在6个游戏中超越了所有以前的方法,并且在3个游戏中超过了人类专家。 1 . Introduct...翻译 2018-10-18 10:20:38 · 7357 阅读 · 1 评论 -
实现对 2:3 或者3:2的图片进行1:1裁剪
常用的脚本 存网上。。。from PIL import Imageimport os# 存放源图片的路径:source_path = "/Users/myname/Desktop/日系图片/植物"# 存放裁剪后图片的路径result_path = "/Users/myname/Desktop/temp"# 裁剪后的边长target_size = 224for pic_...原创 2018-11-04 11:53:54 · 1201 阅读 · 0 评论 -
【论文翻译】End-to-end Driving via Conditional Imitation Learning
I. INTRODUCTION 为什么模仿学习没有扩展到完全自主的城市驾驶?模仿学习的一个假设是:最优action可以直接从observation中推断出来。但实际上这个假设并不成立,比如说:“当汽车接近十字路口时,摄像机的图像不足以预测该汽车应该左转、右转还是直行”。从数学上讲,从图像到控制命令的映射不再是一对一的函数映射。因此,用神经网络处理时候会遇到困难,导致震荡。就算神经网络可以...翻译 2019-05-18 18:46:15 · 1574 阅读 · 0 评论