- 博客(29)
- 资源 (2)
- 收藏
- 关注
原创 win10环境下python3安装pdfminer
一、安装1.首先下载源文件包 http://pypi.python.org/pypi/pdfminer/,解压,然后命令行安装:python setup.py install2.下载pdfminer.six,然后解压。由于处理中文文件,需要预编译:mkdir pdfminer\cmappython tools\conv_cmap.py -c B5=cp950 -c UniCNS-UTF8=utf-8 pdfminer\cmap Adobe-CNS1 cmaprsrc\cid2code_Adobe_C
2021-06-17 11:27:14 2459 1
原创 深度强化学习(8)Proximal Policy Optimization(PPO)
1. Trust region policy optimization(TRPO)我们先来介绍TRPO。TRPO是英文单词Trust region policy optimization的简称,翻译成中文是置信域策略优化。根据策略梯度方法,参数更新方程式为:θnew=θold+α∇θJ\theta_{new}=\theta_{old}+\alpha\nabla_{\theta}Jθnew=...
2020-04-08 21:00:33 1097
原创 图数据库neo4j导入csv数据
1、安装环境\quad执行以下命令安装需要的库:pip install py2neopip install neo4j2、准备数据\quad在关系抽取中,我们会形成SPO三元组即:实体---->关系(属性)---->实体。我们会将三元组数据以.csv文件或.txt文件存储,之后会导入到图数据库中。在导入数据时,我们首先启动neo4j服务。\quadcsv文件数据格式:n...
2020-04-07 18:39:59 1610
原创 深度强化学习(7)深度确定性策略梯度(DDPG)
1.从随机策略到确定性策略首先,我们先了解一下随机策略和确定性策略。随机策略的公式为:πθ(a∣s)=P[a∣s;θ]\pi_{\theta}\left(a|s\right)=P\left[a|s;\theta\right]πθ(a∣s)=P[a∣s;θ]其含义是,在状态为s时,动作符合参数为θ\thetaθ的概率分布。因此,我们可以总结说,采用随机策略时,即使在相同的状态,每次所采取的...
2020-04-02 16:35:14 2907 1
原创 win10安装Neo4j
\quad在安装neo4j之前,需要安装Java JRE(1.8以上),并配置Java开发环境,然后安装neo4j服务。1、安装Java JRE\quad官网下载相应版本JDK。可以默认安装,也可以自定义安装路径。安装完JDK后要安装JRE,建议两个JDK和JRE安装路径并列。\quad1.1 配置环境变量打开环境变量配置。计算机→属性→高级系统设置→高级→环境变量,在系统变量中配置。...
2020-03-31 16:05:41 466
原创 windows下安装tensorflow遇到的问题
1.ImportError: DLL load failed: 动态链接库(DLL)初始化例程失败\quad在运行tensorflow时,有时会遇到\quadImportError: DLL load failed: A dynamic link library (DLL) initialization routine failed. (Win 10) 或\quadImportError: ...
2020-03-29 17:35:56 292
原创 配置ROS环境时遇到的问题
Pycharm中 no module named rospy\quad没有导入 rospy 这个模块,而在终端导入 rospy 发现能导入,说明已经安装了该模块。接着我们打开 Pycharm 中 Settings选项下的 Project Interpreter,选好 Interpreter以后我们在下拉列表中没有找到 rospy 模块。那比较大的可能就是 Pycharm中没有导入 ROS 库...
2019-12-30 09:17:44 489
原创 DRL_Path_Planning开发环境构建
代码链接:https://github.com/CoderWangcai/DRL_Path_Planning环境配置Ubuntu 16.04ROS KineticPython 2.7Tensorflow 1.12.0安装\quad首先创建一个名为catkin_ws的工作空间,将DRL_Path_Planning/src/下的文件拷贝到catkin_ws/src/里。$ mkdir...
2019-12-23 19:25:42 1062 2
原创 安装ROS-Academy-for-Beginners教学包
githun地址: https://github.com/DroidAITech/ROS-Academy-for-Beginners下载源码包在Ubuntu系统上,确保git已经安装$ sudo apt-get install git然后再创建一个名为tutorial_ws的工作空间,在它的的src路径下克隆ROS-Academy-for-Beginners软件包$ mkdir -p ...
2019-12-20 19:07:42 1509
原创 Ubuntu16.04安装ROS
ROS简介\quad机器人操作系统(Robot Operating System, ROS)是一个应用于机器人上的操作系统,它操作方便、功能强大,特别适用于机器人这种多节点多任务的复杂场景。\quadROS目前只支持在Linux系统上安装部署,它的首选开发平台是Ubuntu。时至今日ROS已经相继更新推出了多种版本,供不同版本的Ubuntu开发者使用。为了提供最稳定的开发环境,ROS的每个版本...
2019-12-20 10:43:57 261
原创 Ubuntu16.04使用时遇到的问题
一、Ubuntu查看隐藏文件的方法问题来源:\quad使用git 命令初始化后,会自动生成.git的文件,该文件是git系统跟踪管理的核心,在ubuntu系统下怎样查看隐藏文件?解决方案:\quad若使用桌面可视化窗口,进入该待显示的文件路径,键入ctrl + h ,则显示隐藏文件。二、Ubuntu 键盘鼠标失效怎么办?问题描述\quad启动Ubuntu键盘鼠标失效/失灵,只能通过...
2019-12-14 12:44:04 383
原创 Ubuntu16.04安装文本标注工具brat
brat 的下载地址http://brat.nlplab.org/Ubuntu16.04安装CGI环境安装Apache2sudo apt install apache2配置CGI1)打开文件/etc/apache2/sites-enabled/000-default.confsudo gedit /etc/apache2/sites-enabled/000-default.c...
2019-12-04 10:51:21 990
原创 Neo4j 构建简单农业知识图谱(Agriculture KnowledgeGraph)
\quad我们来看一个基于开源语料的简单农业知识图谱,由于过程比较繁杂,数据和知识图谱数据预处理过程这里不详细叙述。我们重点看基于 Neo4j 来创建知识图谱的过程。项目地址见:https://github.com/qq547276542/Agriculture_KnowledgeGraph1、环境准备本文基于Ubuntu16.04构建农业知识图谱,所需环境:python3和Neo4j(任意版...
2019-11-07 15:38:49 4189 6
原创 Neo4j的基本使用
\quadCypher是图形数据库Neo4j的查询语言,就像SQL在关系型数据库中查询一样。下面,我们简单编写 Cypher 命令创建节点和关系。Cypher 命令可以前往官方文档进行学习。\quad在 $ 命令行中,编写 Cypher 脚本代码,点击 Play 按钮完成创建。基本操作\quad创建一个节点,并显示CREATE (ee:Person { name: "Emil", from...
2019-11-07 15:32:53 240
原创 Ubuntu16.04安装Neo4j
Neo4j是一个高性能的,Nosql图形数据库。Nosql =no sql,即与传统的将数据结构化并存储在表中的数据库不一样。Neo4j将数据存储在网络上,我们也可以把Neo4j视为一个图引擎。我们打交道的是一个面对对象的、灵活的网络结构而不是严格的、静态的表。传统关系型数据库,当数据量很大时,查询性能会明显受影响。但是图形数据库却在这方面表现得很好。neo4j 支持多种主流编程语言,包括.Ne...
2019-11-07 09:32:32 633
原创 深度强化学习(6)Actor-Critic
∇θU(θ)≈1m∑i=1m(∑t=0H∇θlogπθ(ut(i)∣st(i))(R(τ(i))−b))\nabla_{\theta}U\left(\theta\right)\approx\frac{1}{m}\sum_{i=1}^m{\left(\sum_{t=0}^H{\nabla_{\theta}\log\pi_{\theta}\left(u_{t}^{\left(i\right)}|s_...
2019-07-08 22:47:11 1009
原创 深度强化学习(5)策略梯度(Policy Gradient)
Policy Gradient直接策略搜索方法是强化学习中一类很重要的方法。策略搜索是将策略进行参数化即πθ(s)\pi_{\theta}(s)πθ(s),利用参数化的线性或非线性函数(如神经网络)表示策略,寻找最优的参数θ\thetaθ使得强化学习的目标——累积回报的期望E[∑t=0HR(st)∣πθ]E\left[\sum_{t=0}^{H} R\left(s_{t}\right) | \...
2019-06-23 22:24:22 691
原创 深度强化学习(4)Dueling DQN
Dueling DQN在深度强化学习(7)中,我们讨论了对DQN的经验回放池按权重采样来优化DQN算法的方法,本文讨论另一种优化方法,Dueling DQN。不管是最初的DQN,还是由DQN演化出的Double DQN、经验优先回放DQN在值函数逼近时所用的神经网络都是卷积神经网络。Dueling DQN则从网络结构上改进了 DQN。具体如何优化网络结构呢?Dueling DQN考虑将Q网络...
2019-06-15 17:27:39 1151
原创 深度强化学习(3)Prioritized Replay DQN
Prioritized Replay DDQN在强化学习(6)Double DQN 中,我们讲到了DDQN使用两个Q网络,用当前Q网络计算最大Q值对应的动作,用目标Q网络计算这个最大动作对应的目标Q值,进而消除贪婪法带来的偏差。今天我们在DDQN的基础上,对经验回放部分的逻辑做优化。对应的算法是Prioritized Replay DQN。DQN 的成功归因于经验回放和独立的目标网络。Doub...
2019-06-06 22:00:55 1866
原创 深度强化学习(2)Double DQN
Double DQN在深度强化学习(5)我们讲了DQN,DQN的框架仍然是Qlearning。DQN 只是利⽤了卷积神经⽹络表⽰动作值函数,并利用了经验回放和单独设立目标网络这两个技巧。DQN无法克服Qlearning 本身所固有的缺点——过估计。那么什么是过估计?Qlearning为何具有过估计的缺点呢?过估计是指估计的值函数比真实值函数要大。⼀般来说,Qlearning之所以存在过估计的...
2019-05-31 21:06:48 622
原创 深度强化学习(1)Deep Q-Learning
Deep Q-Learning强化学习的求解方法,无论是动态规划DP,蒙特卡罗方法MC,还是时序差分TD,使用的状态都是离散的有限个状态集合SSS。此时问题的规模比较小,比较容易求解。但是假如我们遇到复杂的状态集合呢?甚至很多时候,状态是连续的,那么就算离散化后,集合也很大,此时我们的传统方法(如Q-Learning),根本无法在内存中维护这么大的一张Q表。值函数逼近由于问题的状态集合规模大...
2019-05-25 15:22:55 755 1
原创 强化学习(4)时间差分方法
基于时间差分的强化学习方法在强化学习(3)中,我们讲到了使用蒙特卡罗法来求解强化学习问题的方法,虽然蒙特卡罗法很灵活,不需要环境的状态转化概率模型,但是它需要所有的采样序列都是经历完整的状态序列。如果我们没有完整的状态序列,那么就无法使用蒙特卡罗法求解了。本文我们就来讨论可以不使用完整状态序列求解强化学习问题的方法:时间差分(Temporal-Difference, TD)。无模型时,我们可以...
2019-05-18 14:47:47 1167
原创 强化学习(3) 蒙特卡罗方法
蒙特卡罗方法在强化学习(2)我们讲了已知模型时,利用动态规划的方法求解马尔科夫决策问题。然而很多时候,我们无法知道状态转移概率矩阵PPP,这时动态规划法根本无法使用。这时候我们如何求解强化学习问题呢?今天我们讲无模型的强化学习算法。无模型的强化学习算法主要包括蒙特卡罗方法和时间差分方法。本文要讨论蒙特卡罗(Monte-Calo, MC)的方法。在动态规划的方法中,值函数的计算方法为:vπ(...
2019-05-11 14:53:54 588
原创 强化学习(2)动态规划
动态规划方法理论在强化学习(1),我们已经将强化学习纳入到马尔科夫决策过程MDP的框架之内。马尔科夫决策过程可以利用元组(S,A,P,r,γ)\left( {S,A,P,r,\gamma } \right)(S,A,P,r,γ)来描述,根据转移概率PPP是否已知,可以分为基于模型的动态规划方法和基于无模型的强化学习方法,如图:基于模型的强化学习可以利用动态规划的思想来解决。利用动态规划可以解...
2019-05-05 13:48:49 522 3
原创 强化学习(1)马尔科夫决策过程(MDP)
强化学习开始强化学习之前先来了解强化学习、深度学习、深度强化学习、监督学习、无监督学习、机器学习和人工智能之间的关系。如下图:强化学习的基本原理智能体在执行某项任务时,首先通过动作A与周围环境进行交互,在动作A和环境的作用下,智能体会产生新的状态,同时环境会给出一个立即回报。如此循环下去,智能体与环境进行不断地交互从而产生很多数据。强化学习算法利用产生的数据修改自身的动作策略,再与环境交...
2019-04-27 17:22:36 1715
原创 CTeX安装及使用
1. 关于 LaTeX和CTeXLaTeX是一种基于ΤΕΧ的排版系统,由美国计算机学家莱斯利·兰伯特(Leslie Lamport)在20世纪80年代初期开发,利用这种格式,即使使用者没有排版和程序设计的知识也可以充分发挥由TeX所提供的强大功能,能在几天,甚至几小时内生成很多具有书籍质量的印刷品。对于生成复杂表格和数学公式,这一点表现得尤为突出。因此它非常适用于生成高印刷质量的科技和数学类文档...
2019-04-21 15:43:35 47748 3
原创 Deep Reinforcement Learning
最近在看有关深度强化学习的内容,阅读了这篇综述性论文。本文对论文部分内容进行了整理,并翻译了文章的第12部分多智能体强化学习(Multi-Agent RL)。部分内容参考了https://mp.weixin.qq.com/s/MRS8to_Cy_p0niIkEaWsFA深度强化学习开始深度强化学习之前先来了解深度强化学习、深度学习、强化学习、监督学习、无监督学习、机器学习和人工智能之间的关系。...
2019-04-17 21:50:59 1686
原创 win10安装tensorflow
tensorflow-gpu安装与配置1、准备工具1)下载Anaconda3-4.2.0(python=3.5)或Anaconda3-4.4.0(python3.6.0) 地址:(https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/)2)下载CUDA83)下载cuDNN64)下载Visual Studio20152、安装软件(确...
2019-04-15 22:08:18 851
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人