NLP
文章平均质量分 81
百川AI
心怀热爱,奔赴山海
展开
-
【问答对话】kbqa?开放域问答怎么有知识地生成
开放域问答怎么有知识地生成最近流行的大模型,如GPT-3也在开放域问答上有一定的能力,那么如何在大的语言模型基础上融合知识呢,其实主要面临两个问题,1)检索什么知识,怎么检索。2)怎么讲检索知识加入。......原创 2022-07-11 00:09:28 · 978 阅读 · 0 评论 -
【Prefix-Tuning】Fine-tuning过时啦,NLG生成任务如何Tuning?
Fine-tuning范式大家肯定都再熟悉不过,微调所有语言模型参数,而从gpt3出现之后提出的in-context learning,还是越来越火的prompt,fine-tuning 已经out of state了。而这篇文章就提出prefix-tuning的nlg训练方法。原创 2022-05-16 00:50:40 · 2436 阅读 · 0 评论 -
【任务型对话】任务型对话中的自然语言生成
任务型对话中,一般包含ASR、语义理解、多轮状态追踪、会话策略、自然语言生成(NLG)模块,那么任务型对话中都有哪些生成的方法呢?基于模板因为任务型对话中,生成任务有两个作用,1. 向用户传递信息,例如搜索到的机票信息(inform_槽位)等,提供给用户选择。2. 进行用户问询,主要是ontology中定义好的字段,比如常见的订票场景中的出发地、目的地(request_槽位)等。因此,可以事先针对传递信息、用户问询的槽位,设计好模板,然后实际应用时,将其中的槽位使用对应的值替换即可。例如:Con.原创 2022-04-17 18:32:45 · 1560 阅读 · 0 评论 -
NER的过去、现在和未来综述-现在
命名实体识别(NER, Named Entity Recognition),是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。之前的过去篇:[NER的过去、现在和未来综述-过去篇]过去和现在是相对于某个时间节点的,暂且以bert作为这个时间节点,本文就主要寻找NER在BERT之后的一些方法。本文将从以下方面展开:(https://zhuanlan.zhihu.com/p/351132129)解码框架(Framework)这里归类的解码器似乎也不太合适,但是也找不到原创 2021-10-25 00:28:51 · 1338 阅读 · 0 评论 -
NER的过去、现在和未来综述-过去篇
背景命名实体识别(NER, Named Entity Recognition),是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。评价指标使用实体级别的精确率、召回率、F1本文主要讲解NER历史使用过的一些方法,如果更关注于现在使用功能的一些方法,可以参考:基于词典和规则的方法利用词典,通过词典的先验信息,匹配出句子中的潜在实体,通过一些规则进行筛选。或者利用句式模板,抽取实体,例如模板"播放歌曲${song}",就可以将query="播放歌曲七里香"中的song=七原创 2021-10-14 00:38:31 · 1031 阅读 · 0 评论 -
BERT-flow:bert的向量表达是SOTA吗?
On the Sentence Embeddings from Pre-trained Language Models 阅读笔记code : github/BERT-Flowsource : EMNLP 2020BERT在用于下游各项NLP任务上都有明显提升,但是被发现直接作为sentence embedding的预训练模型效果不好,作者发现这是因为没有很好地挖掘BERT里面的语义信息,作者从理论上证明了bert的训练目标(MLM,NSP)和相似度任务之间差异,并可视化展示。发现bert的语义空间是非原创 2021-02-24 11:50:51 · 1408 阅读 · 0 评论 -
自学习-怎么让对话助手越来越强
对话助手在与人的直接交互过程中,一方面为人提供服务,另一方面,也可以通过人的反馈来进行学习并优化自己,那么具体怎么做呢?留坑,哈哈原创 2021-01-31 23:36:45 · 820 阅读 · 0 评论 -
我还不知道Attention有哪些-公式代码都带你搞定
attention由来已久,让它名声大噪的还是BERT,可以说NLP中,BERT之后,再无RNN和CNN。那么attention到底有哪些呢?代码上怎么实现呢?多头机制又是什么呢,且听分解原创 2020-11-30 23:55:58 · 1868 阅读 · 0 评论 -
NLP数据增强方法-动手实践
当前的模型基本求解的是数据集,而非任务,所以数据显得异常重要。图像中可以通过旋转、翻转变换、rgb转灰度、加入白噪声等方式增强数据,其语义不会发生改变,但是NLP中却往往发生语义改变,针对NLP的一些数据增强方法进行了探索。同义词替换应该是最早的方法, 通过对于语句中的同义词替换,保证语义不变性,根据同义词的来源,又可以分为几种方案WordNet通过WrodNet中的同义词召回相近似的词语,见from nltk.corpus import wordnetnltk.download('omw')原创 2020-07-28 23:53:59 · 1850 阅读 · 0 评论 -
BERT+实体-百度ERNIE优化了啥
ERNIE 1.0如何将知识(knowledge)信息融入到模型训练中,一种方式是将知识信息作为输入,成本是其他人使用的时候也要构建知识库,并且fine-tune和pre-train的知识库分布不一致,fine-tune也会出现问题。另一种方式是将知识信息融入到训练任务中,ERNIE提出一种知识掩盖策略取代bert的mask,包含实体层面和短语级别的掩盖,实验验证了这种策略的有效性,多阶段的maskBasic-Level Masking和bert一样,随机选取token做mask。Phrase原创 2020-05-09 23:05:44 · 1995 阅读 · 0 评论 -
NLP数据增强方法-(一)
分类的增强方法EDA-Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks提出了数据增强方法:synonym replacement(SR):随机选取句子中n个非停用词的词语。对于每个词语随机选取它的一个同义词替换该词语。random insertion(R...原创 2019-12-31 23:23:26 · 1658 阅读 · 0 评论 -
Cross-Domain Review Helpfulness Prediction -论文阅读
Abstract问题:如何估计评论的有用性并将其恰当地推荐给消费者(review helpfulness prediction)当前方法缺点:每个域需要大量的标注数据。每个域之间是封闭的,当在某些域数据非常少、out-of-vocabulary问题时,需要每个域包含大量标注数据。本文提出基于CNN的模型来利用word-level和character-based表达,解决oov问题。并通过迁移...翻译 2019-09-01 22:08:34 · 1118 阅读 · 0 评论 -
【Transformer】Transformer笔记
Attention is all you need文章目录AttentionMulti-head attentionSelf AttentionPosition EmbeddingtransformerencodersdecodersReferenceAttentionRNN要逐步递归获得全局信息,双向RNN一定程度解决上下文问题;yt=f(yt−1,xt)y_t=f(y_{t−1...原创 2019-07-21 18:33:16 · 419 阅读 · 0 评论 -
『 论文阅读』:Convolutional Neural Networks for Sentence Classification
AbstractCNN应用于文本分类系列实验表明,使用很少超参合静态变量的CNN在多分类任务上表现出色。fine-tuning的词向量还能提高性能。本文同时利用了微调和静态的词向量(multi-channel)。1 IntroductWord vectors: train by Mikolov, on 100 billion words of Google News , 词向量...原创 2018-07-21 10:22:43 · 1610 阅读 · 0 评论 -
『 论文阅读』Slot-Gated Modeling for Joint Slot Filling and Intent Prediction
文章目录贡献:2. 模型2.1 底层特征:2.2 attention:2.3 slot-Gate:实验结果:conclusionReference来自论文:《Slot-Gated Modeling for Joint Slot Filling and Intent Prediction》基于Attention的RNN模型在联合意图识别(ID)和槽位填充(SF)上实现最好性能(其ID和SF的...原创 2018-10-14 23:11:34 · 5928 阅读 · 9 评论 -
『 论文阅读』Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling
文章目录1、加入Attention机制和对齐机制的RNN编码器-解码器模型1.1 底层特征:1.1.1 BiRNN(GRU or LSTM)1.2 attention:2、加入Attention机制的RNN模型。实验结果:ConclusionsReference来自于论文:《Attention-Based Recurrent Neural Network Models for Joint In...原创 2018-10-14 23:04:54 · 5154 阅读 · 4 评论 -
ELMo - Deep contextualized word representations
Deep contextualized word representations (ELMo)最近NLP突飞猛进,现有ELMo,后有BERT,周末整理一波。glove以及word2vec的word embedding在nlp任务中都取得了最好的效果, 现在几乎没有一个NLP的任务中不加word embedding.常用的获取embedding方法都是通过训练language model, ...原创 2018-11-06 22:25:15 · 1125 阅读 · 1 评论 -
BERT-Bidirectional Encoder Representations from Transformers
BERT, or Bidirectional Encoder Representations from TransformersBERT是google最新提出的NLP预训练方法,在大型文本语料库(如维基百科)上训练通用的“语言理解”模型,然后将该模型用于我们关心的下游NLP任务(如分类、阅读理解)。 BERT优于以前的方法,因为它是用于预训练NLP的第一个**无监督,深度双向**系统。简单...原创 2018-11-06 22:27:45 · 5120 阅读 · 1 评论 -
对话系统
本文是个人笔记,来源于资料标注与reference中。对话系统涉及的五种主要技术。语音识别(ASR)口语理解(SLU)对话管理(DM)自然语言生成(NLG)文本生成语音(TTS)口语理解-SLU输入经过ASR输出的语句,将其转换为语义表示,如frame形式,包含intent和多个槽位,如订票系统中的:speechActType,departureCity,destination...原创 2018-11-13 22:23:59 · 2172 阅读 · 0 评论 -
谷歌机器对话Self-Play框架M2M-Building a Conversational Agent Overnight with Dialogue Self-Play
Building a Conversational Agent Overnight with Dialogue Self-PlayGoogle提出了 Machines Talking To Machines(M2M,机器对话机器)的框架,这是一个功能导向的流程,用于训练对话智能体。其主要目标是通过自动化任务无关的步骤以减少建立对话数据集所需的代价,从而对话开发者只需要提供对话的任务特定的层面。...原创 2018-11-13 22:27:01 · 871 阅读 · 0 评论 -
Doc Embedding-语义相似度计算
数据集公开数据集英文:GLUE数据集中的MNLI, QQP, QNLI, STS-B, MRPC, RTE ,[SWAG].STS基准收集了2012年至2017年国际语义评测SemEval中所有的英语数据。SICK数据集包含了10000对英语句子,其中的标签说明了它们之间的语义关联和逻辑关系[SEMEVAL-2012] (http://www.cs.york.ac.uk/semeva...原创 2019-01-07 22:28:25 · 6166 阅读 · 1 评论 -
ERNIE: Enhanced Language Representation with Informative Entities
ERNIE: Enhanced Language Representation with Informative Entities当前的预训练语言模型中没有融入KGs信息。而KGs能够为语言理解提供丰富的结构化信息。因此本文提出一种基于大规模语料和KGs训练的增强语言模型ERNIE。实验证明在knowledge-driven任务上,相比于bert取得显著提升。bert融合上下文,ernie融...原创 2019-06-11 22:40:55 · 2442 阅读 · 0 评论 -
斯坦福CS224n课程笔记1-introduction and Word vectors 2019
Human language and word meaning语言是一个低带宽的信息传输方式,相比于5G,这决定了语言的熵会很高。How do we have usable meaning in a computer?one-hot的字词表示:词语维度是很高的,而且有很多衍生的词语,接近于无限的维度。词语之间没有相似度,即one-hot向量是正交的,相似词语和不相似词语之间都是正交关系...原创 2019-07-01 23:37:35 · 445 阅读 · 0 评论 -
自然语言处理入门
自然语言处理(简称NLP),是研究计算机处理人类语言的一门技术,包括:1.句法语义分析:对于给定的句子,进行分词、词性标记、命名实体识别和链接、句法分析、语义角色识别和多义词消歧。2.信息抽取:从给定文本中抽取重要的信息,比如,时间、地点、人物、事件、原因、结果、数字、日期、货币、专有名词等等。通俗说来,就是要了解谁在什么时候、什么原因、对谁、做了什么事、有什么结果。涉及到实体识别、时间抽...转载 2018-05-25 11:07:05 · 826 阅读 · 1 评论