「已注销」
码龄10年
关注
提问 私信
  • 博客:24,630
    24,630
    总访问量
  • 41
    原创
  • 1,750,562
    排名
  • 5
    粉丝
  • 0
    铁粉

个人简介:遇见更好的自己

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2015-03-17
博客简介:

sjh18813050566的专栏

查看详细资料
个人成就
  • 获得3次点赞
  • 内容获得0次评论
  • 获得18次收藏
创作历程
  • 41篇
    2019年
成就勋章
TA的专栏
  • 强化学习读书笔记
    3篇
  • NLP
    30篇
  • KBQA
    7篇
创作活动更多

仓颉编程语言体验有奖征文

仓颉编程语言官网已上线,提供版本下载、在线运行、文档体验等功能。为鼓励更多开发者探索仓颉编程语言,现诚邀各位开发者通过官网在线体验/下载使用,参与仓颉体验有奖征文活动。

368人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Multimodal Policy Search using Overlapping Mixtures of Sparse Gaussian Process Prior读书笔记

没怎么看懂,大致的motivation是,为了使non-parametric policy具有multimodal的性质,采用多个Gaussian Process混合的形式,并使用变分贝叶斯推断的方式进行policy search。还使用了sparse-pseudo-input GP进行扩展。实验比较简单,做了一个物体抓取(旋转夹子使得能夹起物体,有顺时针和逆时针两种策略)和table-...
原创
发布博客 2019.11.22 ·
186 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Learning Robust Manipulation Skills with Guided Policy Search via Generative Motor Reflexes读书笔记

Guided Policy Search(GPS) 学到的policy比较受trajectory optimization得到的trajectory分布的影响,因为其本质上就是做了个supervised learning,因此在未见到的state上容易出现不稳定的情况。本文的目标是得到一个更加robust的policy,本文称之为Generative Motor Reflexes(GMR)结构。...
原创
发布博客 2019.11.22 ·
236 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Deep Predictive Policy Training using Reinforcement Learning读书笔记

本文的目标是从raw image data中学习到predictive policy。predictive policy是指根据当前的input一次性输出之后一段时间内的action,而普通意义上的policy(文章里说是reactive types of controller)在每一个时刻都重新输出一个action。predictive policy的优势在于执行更快,不会受sensor del...
原创
发布博客 2019.11.20 ·
232 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Memory Augmented Policy Optimization for Program Synthesis and Semantic Parsing读书笔记

对policy Gradient的一种改进算法。利用一个memory buffer存储high reward的trajectory,估计gradient时利用inside buffer和outside buffer两部分的加权和来估计,能有效降低variance...
原创
发布博客 2019.02.25 ·
335 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Neural Symbolic Machines: Learning Semantic Parsers on Freebase with Weak Supervision读书笔记

利用Lisp语言的形式表示问题的semantic,可以通过程序执行得到检索答案整个系统由三部分组成:computer,programmer,managercomputer是可以执行程序的部分manager是提供weak supervision的部分主要的解析部分为programmer    programmer基于带attention的seq2seq模型,为了使得程序能够解...
原创
发布博客 2019.02.25 ·
557 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Open Domain Question Answering Using Early Fusion of Knowledge Bases and Text读书笔记

本文考虑如何同时利用Knowledge Graph和text来回答问题。主要思想是构建问题子图(包含KG和text),然后利用图表示学习方法,选出答案。 问题子图构建:    KB查询:在question中做entity linking得到seed entities,然后利用Personalized PageRank寻找周围可能的实体。边权重由边类型决定,边类型的权重由边的word e...
原创
发布博客 2019.02.25 ·
1051 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Character-Level Question Answering with Attention读书笔记

针对simple questionchar-level LSTM得到句子表征序列char-level CNN建模entity和predicate利用LSTM decoder生成entity和predicate:    每次输入context向量和input向量,t=0是input为0,t=1 train时 input为true entity embedding,test时input...
原创
发布博客 2019.02.20 ·
296 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Neural Network-based Question Answering over Knowledge Graphs on Word and Character Level读书笔记

针对simple questionword embedding同时采用两种level的embedding再分别对question,entity和predicate建模,都是利用词序列过GRU得到表征,计算余弦相似度candidate entity生成方法:    1.一个实体与问题中的n-gram完全match,加入候选集    2.如果一个n-gram被包含在更大的n-gra...
原创
发布博客 2019.02.20 ·
854 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

KBQA: Learning Question Answering over QA Corpora and Knowledge Bases读书笔记

主要思想是找到问题中的topic entity, 替换为类型后得到模板(template),映射到知识图谱中的谓词(predicate),再找到答案。模板生成方法:    找到问题中可能的实体,判断实体可能的类型,将实体词替换为类型符号,例如How many people are there in $City?模板到谓词的概率由最大化训练数据的概率来估计,由于有隐变量(template...
原创
发布博客 2019.02.19 ·
660 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Convolutional Neural Network-based Question Answering over Knowledge Base with Type Constraint读书笔记

主要贡献为加入了type constraint提高QA的准确率将QA分为两个步骤:Relation Detection和Answer Type PredictionRelation Detection假设问题只有一个topic  entity,通过WEBQSP数据集直接得到每个问题的topic entity然后将所有从topic entity出发的两跳以内的关系作为候选关系将候...
原创
发布博客 2019.02.19 ·
391 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Modeling Semantics with Gated Graph Neural Networks for Knowledge Base Question Answering读书笔记

通过GGNN对semantic graph进行打分框架1.semantic graph的生成    识别问句中的entity(S-MART工具),再通过定义的个action生成所有可能的查询图2.semantic graph打分    通过GGNN,经过多次领域信息融合,最终将question node的表征通过非线性变换得到查询图的表征,与问题表征计算余弦相似度3.训练...
原创
发布博客 2019.02.18 ·
698 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

ReasoNet: Learning to Stop Reading in Machine Comprehension读书笔记

multi-hop reasoning阅读理解,通过强化学习决定hop步数。训练技巧:    一般的baseline方法采用的是全局baseline,但是不同输入的hop步数不同,采用全局baseline没有区分。本文采用Constrastive Reward,对每个输入单独计算baseline,提高训练速度。...
原创
发布博客 2019.02.17 ·
330 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

RNN中的skip操作

Learning to Skim Text    每次阅读R个词,然后根据当前状态输出跳转步数。使用RL训练。 SKIP RNN: LEARNING TO SKIP STATE UPDATES IN RECURRENT NEURAL NETWORKS    每步决策是否更新state(即选择接收输入或者忽略),用一个round函数当做hard gate。不采用RL更新,直接将阶梯函数...
原创
发布博客 2019.02.16 ·
1535 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Deep Dyna-Q: Integrating Planning for Task-Completion Dialogue Policy Learning读书笔记

建立了world model用于模拟用户,可以认为是一种model-based RL每轮训练,首先利用真实交互训练agent,通过得到的数据训练world model,再根据world model做planning训练agent ...
原创
发布博客 2019.02.15 ·
847 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

End-to-End Reinforcement Learning for Automatic Taxonomy Induction读书笔记

自动词语分类提取词语对之间的特征,生成分类树的过程视作序列决策,每次选择一对词加入分类树中
原创
发布博客 2019.02.15 ·
310 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Think Visually:Question Answering through Virtual Imagery读书笔记

设计空间关系的问答,例如描述了一系列物体的位置、大小、包含关系等,最后询问某物体在另一物体的哪个方位。 本文加入了2D空间representation,推理模块使用多跳memory网络...
原创
发布博客 2019.02.15 ·
199 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Interpretable and Compositional Relation Learning by Joint Training with an Autoencoder读书笔记

发表于ACL2018本文指出KB embedding应当落在一个低维空间中,更能捕捉组合关系;以往方法使用预定义的规则限制维度,但由于不知道哪些关系具有组合性,效果不理想。本文提出使用Autoencoder联合训练达到降维目的。 模型:    实体定义为向量,关系定义为矩阵,composition训练:即根据路径和两端实体计算loss    Autoencoder联合训练:对关...
原创
发布博客 2019.01.29 ·
255 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Robust Distant Supervision Relation Extraction via Deep Reinforcement Learning读书笔记

发表于ACL2018远程监督是关系抽取任务中常用的做法,但存在一个非常明显的问题,就是数据噪音问题。以往方法或者从所有远程监督句子中选取一个打分最高的作为正例,但这样会损失很多信息;或者使用软对齐的方法,通过加注意力机制,但是消除噪音的效果并不完全,且在极端情况(所有句子都是负例)的时候无效。本文认为硬对齐才是更好的消除噪音的方法,采用强化学习对每个句子做决策:留在正例集合中还是换到负例集合中...
原创
发布博客 2019.01.28 ·
794 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Situated Mapping of Sequential Instructions to Actions with Single-step Reward Observation读书笔记

发表于ACL2018将文本指令转化为对应的action序列使用强化学习,对文本指令和state表征,利用attention机制decode得到policy。reward不仅仅是达到目标状态(太稀疏),还加入了编辑距离的变化使用single-step reward observation学习算法,根据采样,在每一步使用所有action计算单步reward,计算梯度。...
原创
发布博客 2019.01.28 ·
182 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Multi-Passage Machine Reading Comprehension with Cross-Passage Answer Verification读书笔记

发表于ACL2018open-domain QA可能会涉及多个passage都包含了与问题非常相关的回答(有些正确有些错误)。本文的想法是对每个passage得到的答案进行相互验证,选出最佳答案。(正确答案更可能被别的passage里答案所支持) 模型:    1.boundary score 类似[Seo et al. 2016,Bidirectional attention f...
原创
发布博客 2019.01.28 ·
315 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏
加载更多