2020年02月_涛涛北京

原创【数据结构】02-Python类

2.3.4类的继承：1、Python有一个最基本的内置类：object，如果一个类没有说明基类，就自动以object作为基类。内置函数issubclass可以判断是否有继承关系，如果2是1的基类，那么issubclass(class1, class2)返回True。假如B继承于A，那么B的实例对象也是A的实例对象。2、派生类通常需要重新定义init函数，并在里面调用基类的初始化函数以便可以访...

2020-02-28 23:10:17 254

原创【数据结构】01-Python类

记录学习过程中遇到的新知识点1、定义python类时要不要加括号？在 Python2 中，对 object 的继承需要显式地写为 FrenchDeck(object)；而在 Python 3 中，这个继承关系是默认的，所以可加可不加，加的话object可写可不写。2、类的属性与python变量类似，不用显式的说明对象有哪些属性，赋值时会自动创建。3、信息隐藏对于复杂的抽象，信息隐藏的...

2020-02-28 10:58:25 113

原创【David Silver-强化学习笔记】p2、马尔科夫模型

2.1 马尔科夫过程Markov decision process 是用来对环境建模的模型，这个环境是fully observable的，即便是partially observable也可以转化为MDP。所以在强化学习领域，几乎所有的问题都可以转化为MDP模型。2.1.1 Markov property2.1.2 State Transition Matrix假如agent有不同的状态，...

2020-02-25 21:28:15 860 2

原创【数据结构笔记-裘宗燕】第一章绪论

占位符

2020-02-24 11:30:35 115

原创【David Silver-强化学习笔记】p1、Introduction

占位符

2020-02-21 11:40:25 693

原创【图数据库】Neo4j-增删查改merge

参考文档：https://neo4j.com/developer/cypher-basics-ii/CQL：cypher query language。目标：创建如下的图结构1、Jennifer likes Graphs2、Jenifer is friend with Michael3、Jennifer works for neo4j一、关于节点一般为名词性词语，创建时可以取一个...

2020-02-18 03:08:40 1784

原创【知识图谱学习笔记】B站课程-p8-p13 数据爬取和导入

折腾了很久，终于搞定了。

2020-02-17 13:54:26 477

原创【知识图谱学习笔记】B站课程-p5-p7知识图谱设计

B站地址：https://www.bilibili.com/video/av70702610侵权请联系删除首先介绍一个医用知识图谱常单靠的系统-UMLS:统一医学语言系统(Unified Medical Language System，UMLS)是美国国立医学图书馆持续开发了20多年的巨型医学术语系统，涵盖了临床、基础、药学、生物学、医学管理等医学及与医学相关学科，收录了约200万个医学概...

2020-02-15 12:07:25 909

原创【知识图谱学习笔记】B站课程-p1-p4环境和设计基础

B站地址：https://www.bilibili.com/video/av70702610侵权请联系删除一、开发环境部署1.1 软件包Py2neo是基于python对neo4j开发的第三方框架。Java：图数据库开发以来的开发环境Thlac/corenlp：清华大学自然语言处理工具包1.2 图数据库的配置后续课程逐渐完成1.3程序的运行：老师：既可以直接运行，也把命...

2020-02-15 11:39:58 428

原创【图数据库】Neo4j下载、安装、配置、服务注册（国内ftp快速下载）

一、下载1、官网下载（不推荐，因为不仅慢还可能失败）2、国内ftp下载（引自）ftp://neo4j.55555.io/neo4j/，这个ftp不仅有安装包还有其他的文档资料。另外下载的时候要注意有桌面版和server版本，一般是下载server版本。二、安装和配置2.1目录结构Bin：存储neo4j的可执行程序Conf：控制Neo4j启动的配置文件Data：存储数据...

2020-02-14 19:40:49 1004

原创【李宏毅-强化学习笔记】p8、Imitation Learning

Imitation learning就是模仿学习，以聊天及机器人为例，我们很难去定义reward function，但我们手上有大量的对话数据。然后我们就让机器去模仿人类来对话，采取的方法主要有两种：behavior cloning和inverse reinforce learning。一、behavior cloning监督学习的方式，例如用CNN训练一个model，看到某个图片就突出a...

2020-02-13 20:35:04 355

原创【李宏毅-强化学习笔记】p7、Sparse reward

首先sparse reward是什么意思呢？有很多情况下，我们做很多事是没有reward的，例如考研，我们每天看书、做习题然后不断的重复都没有奖励值，但是一旦考上了，就会有丰厚的奖励，这样总体来看，我们获得的奖励类似于：　　　　　　　　　　　　　　　　　0,0,0，…0,0,100这就称为稀疏奖励。一、reward shaping（塑造）想法就是：认为的设置一些reward来引导agent...

2020-02-13 15:29:53 424

原创【李宏毅-强化学习笔记】p6、Actor-Critic

一、policy gradient回顾G是看到st后采取at之后获取的收益总和，但是这个值是一个分布值，在不同的episode中可能波动会很大。如果有足够的数据的话，这不是一个问题，当数据不足的时候，那么模型的波动会很大，希望用期望值来代替采样（当前的）值。就是说，训练一个network，输入为s输出为奖励的期望值。二、Q_learning回顾V是态势评估，Q是引导选择。三、Actor...

2020-02-12 22:55:11 397

原创【李宏毅-强化学习笔记】p3-p5、Q_learning

一、introduction of Q_learning首先还是讲一下Q_learning的朴素理解：还记得蒙牛的牛仁根吗？他曾经说过：别问我的一双手能干多少事，惟问移泰山需要多少双手；别问我的一口锅能煮多少斤米，惟问劳千军需要多少口锅；别问我的一盏灯能照多少里路，惟问亮天下需要多少盏灯。这段话和Q_learning的思想有异曲同工之妙。牛仁根的这段话鼓励我们志存高远，遇到困难披荆斩棘而不是望...

2020-02-11 18:23:17 661

原创【李宏毅-强化学习笔记】p1-p2、PPO

一、policy gradient回顾PPO是对policy gradient 的改进版，首先回顾下policy gradient并介绍两个tips。Policy gradient的背景是：我们现在有N笔数据，现在用着这些数据来优化agent也就是π-function。其中每一笔数据是：　　τ= {s1, a1,r1, s2, a2,r2,…,sT,aT,rT}通过对奖励值微分，我们可以得到...

2020-02-09 20:23:21 1354 3

原创【李宏毅-强化学习笔记】一、深度强化学习surface

一

2020-02-04 11:42:53 1536 1

weixin_43522964的博客