2018年08月_fly_boss

12月 11月 09月 08月 07月 06月 04月 02月

Semantic Parsing via Staged Query Graph Generation: Question Answering with Knowledge Base 论文笔记

部分内容来自https://zhuanlan.zhihu.com/p/25942766 摘要该文章分析了传统语义解析方法的不足，受信息抽取和向量建模方法的启发，将语义解析过程转化成查询图（Query graph）分阶段生成的过程，使用了卷积神经网络来提升自然语言到知识库关系的映射。该方法在WebQuestion数据集上测试，取得了52.5的F1-score，该性能远超当时的所有方法。 1....

2018-08-30 09:41:57 1284

原创 NLP tag 表

IP：简单从句 NP：名词短语 VP：动词短语 PU：断句符，通常是句号、问号、感叹号等标点符号 LCP：方位词短语 PP：介词短语 CP：由‘的’构成的表示修饰性关系的短语 DNP：由‘的’构成的表示所属关系的短语 ADVP：副词短语 ADJP：形容词短语 DP：限定词短语 QP：量词短语 NN：常用名词 NR：固有名词 NT：时间名词 PN：代词 VV：动词 VC：是 CC：表示连词 VE：有...

2018-08-28 09:56:54 756

原创 Generating Test Input with Deep Reinforcement Learning 论文笔记

论文地址摘要 Searchbased Software Testing (SBST)使用metaheuristic algorithms（元启发式算法）自动生成测试数据。元启发式算法是基于 fitness function返回值不断试错的方法，这与强化学习的过程很相似。本文研究在SBST中用rf的方法代替人工设计的元启发式算法，我们把被测软件（SUT）改写为强化学习环境。同时，我们提出了一种...

2018-08-24 17:59:29 590

原创 policy gradientss 强化学习

policy gradient 是一种基于整个episode更新的算法，它直接对policy进行更新，能够适应连续的动作空间算法伪代码 log(Policy(s,a))是更新的幅度，Vt是表示这个更新是好还是坏...

2018-08-24 16:22:40 198

原创 sarsa和q-learning区别

sarsa是on policy q-learning是off policy 区别在于更新Q值的时候，直接使用了最大的Q(st+1,a)，相当于采用了Q(st+1,a)值最大的动作，即与t时刻a动作所采用的policy无关 ...

2018-08-23 22:11:05 556

转载强化学习Q - learning

作者：牛阿链接：https://www.zhihu.com/question/26408259/answer/123230350 来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。让小鸟学习怎么飞是一个强化学习（reinforcement learning）的过程，强化学习中有状态(state)、动作(action)、奖赏(reward)这三个要素。智能体（...

2018-08-20 10:10:17 6409

git for window

git for window 版本为Git-2.9.3.2-64-bit，截止2016.9.3最新版，由于某种原因你的下载速度可能很慢，顾上传分享给大家。

2016-09-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人