Paper
文章平均质量分 96
BoCong-Deng
翻过这座山,别人就能听到你的故事!
展开
-
论文阅读笔记:看完也许能进一步了解Batch Normalization
训练深度神经网络非常复杂,因为在训练过程中,随着先前各层的参数发生变化,各层输入的分布也会发生变化,导致调参工作要做的很小心,训练更加困难,论文中将这种现象称为“internal covariate shift”,而Batch Normalization正式用来解决深度神经网络中internal covariate shift现象的方法。原创 2021-01-07 21:51:27 · 1126 阅读 · 0 评论 -
论文阅读笔记:Covariate Shift: A Review and Analysis on Classifiers
我们都知道在机器学习模型中,训练数据和测试数据是不同的阶段,并且,通常是是假定训练数据和测试数据点遵循相同的分布。但是实际上,模型的输入和输出的联合分布在训练数据和测试数据之间是不同的,这称为dataset shift。dataset shift的一种简单情况就是covariate shift,covariate shift仅输入分布发生变化,而在给定输入的输出条件分布保持不变。本文主要概述了现有covariate shift检测和自适应方法及其应用,同时基于包含合成数据和真实数据的四种数据集,提供了各种c原创 2020-12-29 10:39:38 · 1578 阅读 · 1 评论 -
论文阅读笔记:Tacotron和Tacotron2
本文主要是对Tacotron和Tacotron2论文中的关键部分进行阐述和总结,之所以两篇论文放在一起,是因为方便比较模型结构上的不同点,更清晰的了解Tacotron2因为改进了哪些部分,在性能上表现的比Tacotron更好。原创 2020-12-17 10:20:54 · 2376 阅读 · 0 评论 -
论文阅读笔记:Neural Speech Synthesis with Transformer Network
提示:阅读论文时进行相关思想、结构、优缺点,内容进行提炼和记录,论文和相关引用会标明出处。文章目录前言介绍这里科普一下TTS及语音方面的相关知识模型结构前言标题:Neural Speech Synthesis with Transformer Network原文链接:LinkGithub:NLP相关Paper笔记和代码复现说明:阅读论文时进行相关思想、结构、优缺点,内容进行提炼和记录,论文和相关引用会标明出处,引用之处如有侵权,烦请告知删除。转载请注明:DengBoCong介绍虽然像原创 2020-12-08 17:47:30 · 887 阅读 · 0 评论 -
论文阅读笔记:Massive Exploration of Neural Machine Translation Architectures
在计算机视觉中通常会在大型超参数空间中进行扫描,但对于NMT模型而言,这样的探索成本过高,从而限制了研究人员完善的架构和超参数选择。更改超参数成本很大,在这篇论文中,展示了以NMT架构超参数为例的首次大规模分析,实验为构建和扩展NMT体系结构带来了新颖的见解和实用建议。本文工作探索NMT架构的常见变体,并了解哪些架构选择最重要,同时展示所有实验的BLEU分数,perplexities,模型大小和收敛时间,包括每个实验多次运行中计算出的方差数。原创 2020-12-04 23:38:07 · 1012 阅读 · 0 评论 -
论文阅读笔记:A Comparative Study on Transformer vs RNN in Speech Applications
序列到序列模型已广泛用于端到端语音处理中,例如自动语音识别(ASR),语音翻译(ST)和文本到语音(TTS)。本文着重介绍把Transformer应用在语音领域上并与RNN进行对比。与传统的基于RNN的模型相比,将Transformer应用于语音的主要困难之一是,它需要更复杂的配置(例如优化器,网络结构,数据增强)。在语音应用实验中,论文研究了基于Transformer和RNN的系统的几个方面,例如,根据所有标注数据、训练曲线和多个GPU的可伸缩性来计算单词/字符/回归错误。原创 2020-11-24 16:54:00 · 858 阅读 · 0 评论 -
论文阅读笔记:Multi-Turn Response Selection for Chatbots with Deep Attention Matching Network
本文在一个统一的神经网络中介绍了这两种注意力,网络命名为Deep Attention Matching Network(DAM),用于多回合响应选择。在实践中,DAM将上下文或响应中的语句的每个词作为抽象语义段的中心含义,并通过堆叠式的自注意力丰富其表示,从而逐渐围绕中心词生成越来越复杂的段表示 。考虑到文本相关性和依存性信息,上下文和响应中的每个语句都基于不同粒度的句段对进行匹配。这样,DAM通常会捕获上下文之间的匹配信息以及从单词级到句子级的响应,然后使用卷积和最大池化操作提取重要的匹配特征,最后通过单原创 2020-11-23 00:24:48 · 1864 阅读 · 0 评论 -
论文阅读笔记:ProjectionNet: Learning Efficient On-Device Deep Networks Using Neural Projections
论文中介绍了一种叫ProjectionNet的联合框架,可以为不同机器学习模型架构训练轻量的设备端模型。其使用复杂的前馈/循环架构(就像 LSTM)作为训练模型,联合一个简单的投影(projection)架构——其中包含动态投影操作以及一些窄带全连接层。整个架构使用反向传播在 TensorFlow 上进行端到端训练,在训练完成后,我们就可以直接使用紧凑的 ProjectionNet 进行推理了。通过这种方法,我们可以训练尺寸很小的 ProjectionNet 模型,兼顾小尺寸(比常规模型小几个数量级)与高性原创 2020-11-16 00:15:28 · 1279 阅读 · 0 评论 -
论文阅读笔记:MuTual: A Dataset for Multi-Turn Dialogue Reasoning
面向非任务的对话系统在给定上下文的情况下,当前系统能够产生相关且流畅的回复,但是由于推理能力较弱,有时会出现逻辑错误。为了促进对话推理研究,发布了多轮对话推理数据集 MuTual,针对性地评测模型在多轮对话中的推理能力。它由基于中国学生英语听力理解考试的8,860个手动注释的对话组成原创 2020-11-10 11:17:14 · 945 阅读 · 0 评论 -
论文阅读笔记:Sequential Matching Network: A New Architecture for Multi-turn Response Selection in Retrieva
本文的SMN模型结构可以说影响了很多后续相关的论文,所解决的是基于检索的聊天机器人中多回合对话的回复选择。在之前的工作,基于检索的聊天机器人的做法是将context里所有的utterances都连接在一起,将这个长长的context做处理然后和response作匹配,这样做可能会丢失语句间的关系或重要的上下文信息。Sequential Matching Network(SMN)模型就是为了解决这些问题而来的。原创 2020-10-31 11:14:47 · 980 阅读 · 0 评论 -
论文阅读笔记:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
本文介绍的language representation model就是大名鼎鼎的BERT,其模型结构是利用Transformer的双向Encoder表示。BERT有个明显的特点就是,它通过在所有层的左侧和右侧上下文中共同进行条件预处理,从而在未标记的文本中预训练深层双向表示。原创 2020-10-29 21:33:21 · 688 阅读 · 0 评论 -
论文阅读笔记:Self-Attention with Relative Position Representations
了解Transformer的都知道,与递归和卷积神经网络相反,它没有在其结构中显式地建模相对或绝对位置信息,而是它需要在其输入中添加绝对位置的表示,这是一种完全依赖于注意力机制的方法。在本篇论文中,提出了一种替代方法,扩展了自注意机制,可以有效地考虑相对位置或序列元素之间距离的表示。本文描述了该方法的有效实现,并将其转换为可感知到任意图标记输入的相对位置感知自注意力机制的实例,即提出了一种将相对位置表示形式并入Transformer自注意机制的有效方法,残差连接有助于将位置信息传播到更高的层。原创 2020-10-24 23:47:35 · 4152 阅读 · 2 评论 -
论文阅读笔记:Scheduled Sampling for Transformers
cheduled sampling(计划采样)是一种避免Exposure Bias的技术,它包括向模型喂入Teacher-Forcing的embeddings和训练时间上一步中的模型预测的混合,该技术已用于通过递归神经网络(RNN)改善模型性能。在Transformer模型中,与RNN不同,新单词的生成会涉及到到目前为止生成的完整句子,而不仅是最后一个单词,致使应用Scheduled sampling技术并非易事。文中提出了一些结构上的更改,以允许通过两次遍历解码策略将Scheduled sampling应原创 2020-10-20 21:33:29 · 614 阅读 · 3 评论 -
论文阅读笔记:Global-Locally Self-Attentive Dialogue State Tracker
对话状态跟踪(在对话上下文中估计用户目标和请求)是面向任务的对话系统的重要组成部分。在本文中,提出了“全局-局部自注意力对话状态追踪”(GLAD),该学习器使用全局本地模块来学习用户话语的表示和以前的系统动作。模型使用全局模块在不同类型(称为插槽)的对话状态的估计量之间共享参数,并使用本地模块学习特定于插槽的特征。DST中的状态(state)通常由一个请求(request)和联合目标(joint goals)的集合组成。请求即请求系统返回所需信息(例如:request(address)),目标即用户想要完成原创 2020-10-20 11:42:09 · 532 阅读 · 3 评论 -
论文阅读笔记:Latent Intention Dialogue Models
开发能够做出自主决策并通过自然语言进行交流的对话代理是机器学习研究的长期目标之一。传统方法要么依靠手工制作一个小的状态动作集来应用不可扩展的强化学习,要么构建确定性模型来学习无法捕获自然对话可变性的对话语句。论文提出了一种隐意图对话模型(Latent Intention Dialogue Model, LIDM),通过离散的隐变量来学习对话意图,这些隐变量可以看作引导对话生成的动作决策,进而运用强化学习可以提升性能。实际上在任务型对话中,这个隐含的意图可以理解为是action。原创 2020-10-08 20:12:48 · 360 阅读 · 0 评论 -
论文阅读笔记:Neural Belief Tracker: Data-Driven Dialogue State Tracking
belief tracker是现代口语对话系统的核心组件之一,它可以在对话的每个步骤中估算用户的目标,但是,大多数当前方法很难扩展到更大,更复杂的对话域。这是由于它们对以下方面的依赖:a)需要大量带注释的训练数据的口语理解模型; 或b)手工制作的词典,用于捕获用户语言的某些语言变化。我们提出了一种新颖的Neural Belief Tracking (NBT) 框架,该框架通过基于表示学习的最新进展来克服这些问题。NBT通过推理对预先训练的单词向量进行建模,学习将其组合为用户话语和对话上下文的分布表示形式。我原创 2020-10-06 23:27:48 · 1046 阅读 · 0 评论 -
论文阅读笔记:A Network-based End-to-End Trainable Task-oriented Dialogue System
教会机器完成与人自然交流的任务是充满挑战性的,当前,开发面向任务的对话系统需要创建多个组件,通常这涉及大量的手工制作或获取昂贵的标记数据集以解决每个组件的统计学习问题。在这项工作中,我们介绍了基于神经网络的文本输入,文本输出的端到端可训练的面向目标的对话系统,以及一种基于pipeline的Wizard-of-Oz框架的收集对话数据的新方法。这种方法使我们能够轻松开发对话系统,而无需对手头的任务做太多假设。结果表明,该模型可以自然地与人类交谈,同时帮助他们完成餐馆搜索领域的任务。原创 2020-10-04 16:30:39 · 2125 阅读 · 1 评论 -
论文阅读笔记:An End-to-End Trainable Neural Network Model with Belief Tracking for Task-Oriented Dialog
我们提出了面向任务的对话系统的新型端到端可训练神经网络模型,该模型能够跟踪对话状态,基于知识(KB)的API调用,并将结构化的KB查询结果合并到系统响应中,从而成功完成面向任务的对话。通过在对话历史上的进行belief tracking和KB结果处理,进而模型产生结构良好的系统响应。我们使用从第二个Dialog State Tracking Challenge(DSTC2)语料库转换而来的数据集在饭店搜索域中评估模型。实验结果表明,在给定对话历史记录的情况下,该模型可以很好地跟踪对话状态。此外,我们的模型在原创 2020-09-29 10:56:50 · 419 阅读 · 0 评论 -
论文阅读笔记:Recent Advances and Challenges in Task-oriented Dialog Systems
由于在人机交互和自然语言处理中的重要性和价值,面向任务的对话系统在学术界和工业界都受到越来越多的关注。在本文中,我们调查了面向任务的对话系统的最新进展和挑战。我们还讨论了面向任务的对话系统的三个关键主题:(1)提高数据效率以促进在资源匮乏的环境中进行对话建模;(2)为对话策略学习建模多回合模型以实现更好的任务完成性能;(3)将领域本体知识整合到对话模型中。此外,我们回顾了对话评估和一些常用语料库的最新进展。我们认为,尽管这项调查不完整,但可以为面向任务的对话系统的未来研究提供启发。原创 2020-09-28 21:32:19 · 995 阅读 · 0 评论 -
论文阅读笔记:MultiWOZ 2.2 : A Dialogue Dataset with Additional Annotation Corrections and State...
MultiWOZ是一个著名的面向任务的对话数据集,其中包含10,000多个跨越8个域的带注释对话,而被广泛用作对话状态跟踪的基准。但是,最近的工作报告说,对话状态注释中存在大量噪音。MultiWOZ 2.1中识别并修复了许多错误的注释和用户话语,从而改进了该数据集的版本。本篇论文工作介绍了MultiWOZ 2.2,它是该数据集的又一个改进版本。首先,我们在MultiWOZ 2.1之上的17.3%话语中识别并修复对话状态注释错误。其次,我们通过不允许带有大量可能值的槽(例如,餐厅名称,预订时间)来重新定义数据原创 2020-09-28 15:17:50 · 1038 阅读 · 2 评论 -
论文阅读笔记:CrossWOZ: A Large-Scale Chinese Cross-Domain Task-Oriented Dialogue Dataset
为了推进多域(跨域)对话建模并缓解中文面向任务的数据集的不足的问题,我们提出了CrossWOZ,这是第一个大规模的中文跨域“人机交互”任务导向的数据集。CrossWOZ包含 6K 个对话,102K 个句子,涉及 5 个领域(景点、酒店、餐馆、地铁、出租)。此外,语料库包含丰富的对话状态注释,以及用户和系统端的对话行为。大约60%的对话具有跨域用户目标,这些目标有利于域间依赖性,并有助于对话中跨域自然过渡。我们还为pipeline的面向任务的对话系统提供了一个用户模拟器和一些基准模型,这将有助于研究人员在该语原创 2020-09-27 18:29:43 · 997 阅读 · 1 评论 -
论文阅读笔记:Layer Normalization
训练最新的深度神经网络在计算上是昂贵的,减少训练时间的一种方法是归一化神经元,最近引入的一种称为批归一化的技术使用训练案例的小批量上神经元的总输入分布来计算均值和方差,然后使用均值和方差对每个训练案例中该神经元的总输入进行归一化,这大大减少了前馈神经网络的训练时间。但是,批归一化的效果取决于小批量的大小,如何将其应用于递归神经网络尚不明显。在本文中,我们通过在单个训练案例上计算从层的所有总输入到神经元的归一化的均值和方差,将批归一化转换为层归一化。像批归一化一样,我们还为每个神经元提供了自己的自适应原创 2020-09-24 22:47:03 · 868 阅读 · 0 评论 -
论文阅读笔记:Attention Is All You Need
序列转导模型基于复杂的递归或卷积神经网络,包括编码器和解码器,表现最佳的模型还通过注意力机制连接编码器和解码器。我们提出了一种新的简单网络架构,即Transformer,它完全基于注意力机制,完全消除了重复和卷积。在两个机器翻译任务上进行的实验表明,这些模型在质量上具有优势,同时具有更高的可并行性,并且所需的训练时间大大减少。我们的模型在WMT 2014英语到德语的翻译任务上达到了28.4 BLEU,比包括集成学习在内的现有最佳结果提高了2 BLEU。在2014年WMT英语到法语翻译任务中,我们的模型在八个原创 2020-09-17 20:46:39 · 484 阅读 · 0 评论 -
论文阅读笔记:Pretraining Methods for Dialog Context Representation Learning
本文考察了各种用于学习对话上下文表示的无监督预训练目标, 提出了两种新颖的对话上下文编码器预训练方法,并研究了四种方法。使用MultiWoz数据集对每个预训练目标进行了微调,并在一组下游对话任务上进行了评估,并观察到了出色的性能改进。 进一步的评估表明,我们的预训练目标不仅可以带来更好的性能,而且可以带来更好的收敛性,并且模型需要的数据更少,并且具有更好的领域通用性。原创 2020-09-13 19:57:20 · 518 阅读 · 0 评论