![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
DL+NLP
sparkexpert
大数据挖掘技术(人工智能)的爱好者
展开
-
AllenNLP系列文章之三:机器阅读
机器阅读也是AllenNLP提供的功能模块之一。其Models介绍如下:Machine ComprehensionMachine Comprehension (MC) models answer natural language questions by selecting an answer span within an evidence text. The AllenNLP MC model ...原创 2018-04-08 21:09:35 · 1628 阅读 · 0 评论 -
从监督数据中学习句子表示的方法InferSent评测实验
如何利用一些现成的句子语料来完成句子的嵌入表示,并支撑一些上层应用,是词嵌入技术在句子层面的一种拓展应用。2017 年 Facebook 的研究人员 Conneau 等人提出的 InferSent 框架,它的基本思想:(1)先设计一个模型在斯坦福的 SNLI(Stanford Natural Language Inference)数据集上训练,SNLI包含570K个人类产生的句子对,每个句...原创 2019-02-20 11:48:45 · 755 阅读 · 1 评论 -
句子向量的统一评测工具(senteval)实验
现有句子嵌入表示是完成句子分类、句子相似性度量及一些高级任务的基础,那么句子嵌入表示效果如何评估,是一个相对重要的度量问题。facebook研究员提出了一个句子向量的统一评测工具:senteval(https://github.com/facebookresearch/SentEval),该工具可以对当前多种主流的句子嵌入表示模型进行评测,主要包括:SkipThought with Lay...原创 2019-02-20 11:19:01 · 3214 阅读 · 0 评论 -
基于gpt-2模型(117M预训练模型)的文本自动生成测试
openai的gpt-2模型最近在风口浪尖上。Language Models are Unsupervised Multitask Learners论文已经出来,但是由于该模型没有将训练过程开源出来,所以本博客仅仅是针对已经公布的117M的预训练模型进行测试。1、论文贡献In this paper, we connect these two lines of work and contin...原创 2019-02-22 17:27:22 · 9673 阅读 · 2 评论 -
AllenNLP系列文章之七:ELMO
在AllenNLP的主页上有个单独的菜单(http://allennlp.org/elmo),一直不太了解为何将它单列出来,主要在AllenNLP的许多任务中如文本蕴含里面等已经用到了这个模型所产生的词向量。 1、论文原理 从其主页上的介绍可知,该论文来自NAACL2018的论文。IntroductionELMo is a deep contextualized word represen...原创 2018-04-27 07:02:52 · 15581 阅读 · 1 评论 -
pytorch的开源对话框架ParlAI系统实践
最近抽点时间将ParlAI代码进行重构和调试之后,发现其代码设计风格类似于工厂模式,非常便于插入式开发,算是接触过的python代码框架中比较棒的一个。 1、框架基本介绍在facebook的github官网(https://github.com/facebookresearch/ParlAI)上对其介绍为对话系统框架。即:ParlAI (pronounced “par-lay”) is a ...原创 2018-04-20 22:18:30 · 2478 阅读 · 0 评论 -
AllenNLP系列文章之二:命名实体识别
命名实体识别是AllenNLP的核心模块之一。在官网上介绍如下:Named Entity RecognitionThe named entity recognition model identifies named entities (people, locations, organizations, and miscellaneous) in the input text. This model...原创 2018-04-06 21:52:56 · 4753 阅读 · 5 评论 -
AllenNLP系列文章之一:初识AllenNLP和代码重构
AllenNLP是一个相对成熟的基于深度学习的NLP工具包,它 构建于 PyTorch 之上,它的设计遵循以下原则:(1)超模块化和轻量化。你可以使用自己喜欢的组件与 PyTorch 无缝连接。(2)经过广泛测试,易于扩展。测试覆盖率超过 90%,示例模型为你提供了很好的模板。(3)真正的填充和覆盖,让你可以毫无痛苦地轻松实现正确的模型。(4)易于实验。可以通过符合 json 规范的全面记录重...原创 2018-04-06 21:35:53 · 6972 阅读 · 4 评论 -
AllenNLP系列文章之六:Textual Entailment(自然语言推理-文本蕴含)
自然语言推理是NLP高级别的任务之一,不过自然语言推理包含的内容比较多,机器阅读,问答系统和对话等本质上都属于自然语言推理。最近在看AllenNLP包的时候,里面有个模块:文本蕴含任务(text entailment),它的任务形式是:给定一个前提文本(premise),根据这个前提去推断假说文本(hypothesis)与premise的关系,一般分为蕴含关系(entailment)和矛盾关系(c...原创 2018-04-11 09:23:34 · 18943 阅读 · 1 评论 -
AllenNLP系列文章之五:语义角色标注
序列标注,是自然语言处理的基础工作,它广义上可以将分词、词性标注、实体识别、依存分析等NLP的基础工作都涵盖在内。序列标注问题是NLP中最常见的问题,因为绝大多数NLP问题都可以转化为序列标注问题,虽然很多NLP任务看上去大不相同,但是如果转化为序列标注问题后其实面临的都是同一个问题。所谓“语义角色标注”,它是句子分析的重要工具之一。语义角色标注(SRL)系统的目标是恢复一个句子的谓词-...原创 2018-04-09 21:59:41 · 3964 阅读 · 0 评论 -
AllenNLP系列文章之四:指代消解
指代消解是自然语言处理的一大任务之一,它是信息抽取不可或缺的组成部分。在信息抽取中,由于用户关心的事件和实体间语义关系往往散布于文本的不同位置,其中涉及到的实体通常可以有多种不同的表达方式,例如某个语义关系中的实体可能是以代词形式出现的,为了更准确且没有遗漏地从文本中抽取相关信息,必须要对文章中的指代现象进行消解。指代消解不但在信息抽取中起着重要的作用,而且在机器翻译、文本摘要和问答系...原创 2018-04-09 21:43:20 · 15066 阅读 · 10 评论 -
具有泛化能力的句子表征模型:Gensen评测实验
Learning General Purpose Distributed Sentence Representations via Large Scale Multi-task Learning(https://arxiv.org/abs/1804.00079)一文发表在 ICLR 2018,中,该论文提出的模型能够在各种各样的任务中泛化句子表征,且设计了一个一对多的多任务学习框架。其主要贡献的描...原创 2019-02-21 08:25:23 · 960 阅读 · 0 评论