- 博客(6)
- 资源 (1)
- 收藏
- 关注
Semantic Parsing via Staged Query Graph Generation: Question Answering with Knowledge Base 论文笔记
部分内容来自https://zhuanlan.zhihu.com/p/25942766 摘要 该文章分析了传统语义解析方法的不足,受信息抽取和向量建模方法的启发,将语义解析过程转化成查询图(Query graph)分阶段生成的过程,使用了卷积神经网络来提升自然语言到知识库关系的映射。该方法在WebQuestion数据集上测试,取得了52.5的F1-score,该性能远超当时的所有方法。 1....
2018-08-30 09:41:57 1284
原创 NLP tag 表
IP:简单从句 NP:名词短语 VP:动词短语 PU:断句符,通常是句号、问号、感叹号等标点符号 LCP:方位词短语 PP:介词短语 CP:由‘的’构成的表示修饰性关系的短语 DNP:由‘的’构成的表示所属关系的短语 ADVP:副词短语 ADJP:形容词短语 DP:限定词短语 QP:量词短语 NN:常用名词 NR:固有名词 NT:时间名词 PN:代词 VV:动词 VC:是 CC:表示连词 VE:有...
2018-08-28 09:56:54 756
原创 Generating Test Input with Deep Reinforcement Learning 论文笔记
论文地址 摘要 Searchbased Software Testing (SBST)使用metaheuristic algorithms(元启发式算法)自动生成测试数据。元启发式算法是基于 fitness function返回值不断试错的方法,这与强化学习的过程很相似。本文研究在SBST中用rf的方法代替人工设计的元启发式算法,我们把被测软件(SUT)改写为强化学习环境。同时,我们提出了一种...
2018-08-24 17:59:29 590
原创 policy gradientss 强化学习
policy gradient 是一种基于 整个episode更新的算法,它直接对policy进行更新,能够适应连续的动作空间 算法伪代码 log(Policy(s,a))是更新的幅度,Vt是表示这个更新是好还是坏...
2018-08-24 16:22:40 198
原创 sarsa和q-learning区别
sarsa是on policy q-learning是off policy 区别在于更新Q值的时候,直接使用了最大的Q(st+1,a),相当于采用了Q(st+1,a)值最大的动作,即与t时刻a动作所采用的policy无关 ...
2018-08-23 22:11:05 556
转载 强化学习Q - learning
作者:牛阿 链接:https://www.zhihu.com/question/26408259/answer/123230350 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 让小鸟学习怎么飞是一个强化学习(reinforcement learning)的过程,强化学习中有状态(state)、动作(action)、奖赏(reward)这三个要素。智能体(...
2018-08-20 10:10:17 6409
git for window
2016-09-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人