论文阅读
文章平均质量分 90
AI让世界更懂你
计算机科学与技术专业博士,主要研究方向为人工智能、自然语言处理、大规模语言模型和对话系统等。曾与微软小冰、微软小娜共同工作。兴趣广泛,包括并不限于人工智能,心理学,认知科学,语言学,数学,天文学等。让我们一起和AI,改进世界!
展开
-
Dependency Dialogue Acts — Annotation Scheme and Case Study [论文解读]
在本文中,我们介绍了依存对话行为(Dependency Dialog Act, DDA),这是一个新颖的框架,旨在捕捉多方对话中说话者意图的结构。DDA结合并适应了现有对话标注框架的特点,并强调了对话的多关系响应结构,除了对话行为和修辞关系。它表示了多方多线程对话中的功能性、话语性和响应结构。DDA与现有的对话标注框架(如SWBD-DAMSL和ISO24617-2标准)相比有几个关键特点。首先,DDA优先考虑对话单元的关系结构和对话上下文,将对话行为和修辞关系都标注为特定话语的响应关系。原创 2024-01-04 20:30:08 · 461 阅读 · 0 评论 -
EM Pre-training for Multi-party Dialogue Response Generation [论文解读]
对话回应生成要求代理根据当前的对话历史生成回应,这方面双方对话已经有了很多研究,但同时也给多方对话留下了很大的空白。与双方对话不同的是,在多方场景中,在生成回应之前需要指定回应话语的收信人。由于存在大量的双方对话数据,已经提出了各种用于双方对话回应生成的预训练语言模型。然而,由于多方对话数据集中缺乏注释的收信人标签,很难将它们用于为多方对话预训练回应生成模型。为了克服这个障碍,我们提出了一种期望最大化(EM)方法,通过迭代执行期望步骤生成收信人标签,并进行最大化步骤来优化回应生成模型。原创 2023-08-24 14:52:08 · 196 阅读 · 0 评论 -
NaturalConv: A Chinese Dialogue Dataset Towards Multi-turn Topic-driven Conversation [论文解读]
在这篇论文中,我们提出了一个中文多轮主题驱动对话数据集——NaturalConv,参与者可以自由聊天,只要话题中的任何一个元素被提及且话题转换平滑。我们的语料库包含来自六个领域的19.9K个对话和400K个话语,平均每轮对话有20.1个话语。这些对话包含了对相关话题的深入讨论,或者多个话题之间的自然过渡。我们认为这两种方式在人类对话中都是正常的。为了促进对该语料库的研究,我们提供了几个基准模型的结果。比较结果显示,在这个数据集上,通过引入背景知识/话题,我们目前的模型无法提供显著的改进。原创 2023-08-22 22:30:19 · 384 阅读 · 0 评论 -
RPTCS: A Reinforced Persona-aware Topic-guiding Conversational System [论文解读]
虽然关于开放领域对话系统的研究已经很多,但大部分缺乏控制对话中概念转换的机制。对于从随意闲聊切换到任务导向对话等活动,一个具备管理对话中概念流程能力的代理人可能会很有帮助。如果在进行概念转换时考虑到用户的个性,用户会发现对话更加有趣和吸引人,并且更容易接受这种转换。针对个性感知的概念转换,我们提出了一种强化个性感知主题引导对话系统(RPTCS)。由于缺乏个性感知主题转换数据集,我们提出了一种新颖的对话数据集创建机制,其中对话代理人根据说话者的个性和对话的上下文引导话语漂移到一组目标概念。原创 2023-08-22 15:46:32 · 99 阅读 · 0 评论 -
【论文解读】基于TransS驱动的隐式篇章关系识别的联合学习框架
本文的出发点现有的工作不能够充分挖掘标注的关系标记。忽略了在低维空间中的额外信息。本文贡献提出使用TransS驱动的联合学习框架包括学习潜在的集合结构信息(GSL)和语义特征信息(SFL)提出基于TransS的方法将篇章关系映射到地位向量空间能够捕获集合结构信息。使用了联合学习来优化论元的表示。实验显示模型的有效性。本文做法将篇章关系映射到低维向量空间中能够挖掘论元关系的几何结构信息。进一步捕捉论元的语义特征。将两个部分联合学习。模型图左边是它所谓的集合结构学习(GSL)原创 2021-12-17 17:01:11 · 642 阅读 · 0 评论 -
【论文解读】从可扩展的远程情感监督构建的附有结构和主次标记的MEGA RST 篇章树库
前言本文是EMNLP 2020年的论文《MEGA RST Discourse Treebanks with Structure and Nuclearity from Scalable Distant Sentiment Supervision》读后感。摘要缺少大规模和多样性的篇章语料库阻碍了以数据为驱动方法的应用,例如将深度学习应用到RST风格的篇章分析中。本文中,我们提出一种新型的大规模方法通过情感分析数据集远程监督自动生成篇章结构树,称为MEGA-DT。这是一种大规模篇章标注语料库。我们的方法依原创 2021-08-25 19:56:59 · 438 阅读 · 1 评论 -
【论文解读】NAACL 2021 对比自监督学习的上下文和一般句子表征:以篇章关系分析为例
前言本文是NAACL 2021的论文《Contextualized and Generalized Sentence Representations by Contrastive Self-Supervised Learning: A Case Study on Discourse Relation Analysis》的解读。总体说来整篇文章的结构还是比较清晰。利用RoBERTa作为基底模型,附带一个对比学习目标和一个生成目标。在普通的掩码语言任务中增加了句子级别的自监督对比损失,使得掩码的表示在同一上原创 2021-08-23 20:03:35 · 622 阅读 · 0 评论 -
【论文解读】人工智能中的深层结构学习(Learning Deep Architectures for AI)
强烈推荐,这篇论文不仅仅是2018年图灵奖得主之一的Bengio大神著作,也是很好的人工智能入门材料。强烈建议阅读英文原版,其写作风格真的是深入浅出,可以细细品尝。0. 摘要理论结果表明,为了学习可以代表高级抽象的复杂功能(例如,在视觉,语言和其他人工智能任务中),可能需要深层结构。 深层结构由多个级别的非线性运算组成,例如在具有许多隐藏层的神经网络中或在重复使用许多子公式的复杂命题公式中。 搜索深层结构的参数空间是一项艰巨的任务,但是最近提出的为了解决该问题的学习算法,例如深度信念网络,取得了显著成功原创 2021-04-13 15:42:56 · 1073 阅读 · 1 评论 -
【论文解读】DialogBERT: Discourse-Aware Response Generation via Learning to Recover and Rank Utterances
文章来源:AAAI 2021文章地址:https://arxiv.org/pdf/2012.01775.pdf摘要最近的预训练模型极大的改进了基于神经网络的回复生成。然而现有的方法通常将对话上下文看作是一个线性的Token序列,这样的字符及编码方式阻碍了探寻对话建的篇章连贯性。文本提出DialogBERT,一种新型的对话回复生成模型来增强之前的PLM对话模型。DialogBERT使用一个层次化的Transformer架构。为了更有效的捕获篇章级连贯性,我们提出两个训练目标,包括对话掩码回归和分布式对话原创 2021-04-12 21:48:55 · 1398 阅读 · 5 评论 -
【论文解析】隐式篇章关系分类:我们需要谈一谈评估 (ACL 2020)
论文地址:https://www.aclweb.org/anthology/2020.acl-main.480.pdf代码链接: https://github.com/najoungkim/pdtb3论文摘要本文重新审视了之前在PDTB2.0版本上各个工作的一些差异,并且提出一个统一的评价标准,并且显示出了预训练模型可以取得远超目前最优模型。另外他也对于PDTB3.0与PDTB2.0的变化进行了描述,并对于细颗粒度分类进行了一些实验,为下一步的工作打下基础。论文拟解决的主要问题在PDTB2.0上原创 2020-10-12 16:53:37 · 959 阅读 · 3 评论 -
【论文解析】抽象摘要中基本语篇单位的构建(ACL 2020)
本文的起点最近的抽象式摘要都是对于提前抽取的每个句子进行精简或者重写,但是一般来讲,有些句子是连贯的,例如需要合并2个句子为1个句子。想去做一个新的摘要方法,相比较句子级别的摘要,它能够更有信息量,也更精简。待解决的问题,一个是哪些EDU应该被挑选出来;另一个问题是如何将这些EDU去拼接成一个更流畅的摘要。贡献使用EDU代替句子作为基本的抽取单元(与另一篇一样)使用强化学习应用到EDU的选取上(其实之前也有类似的工作,文中也提到)提出重写时,是根据其EDU所属的块进行重写,完成既精简,又可以保原创 2020-10-12 14:18:18 · 466 阅读 · 0 评论 -
【论文解析】篇章感知的神经抽取式文本摘要(ACL 2020)
本文的贡献与之前的抽取式不同的是,本文使用的是基本篇章单元(EDU)而不是句子作为抽取(选择)的元素,这样可以进一步减少一些冗余和无用的信息。本文利用了篇章关系和指代关系,使用依存图的形式进行了图卷积编码后,辅助关键句的挑选,这样可以帮助解决长依赖关系(但是没有直接给出例子)。本文的模型整篇文章使用一个BERT进行编码,然后每个句子使用标记进行包裹,对于每个EDU,则使用SpanExt抽取其特征,获得隐藏层h作为每个节点的表示,再通过右边的图卷积模型进行节点分类。这里的BERT编码使用的是原创 2020-10-10 17:37:18 · 1334 阅读 · 1 评论 -
跨领域迁移的连贯性模型(ACL 2019)
本文为ACL 2019的论文A Cross-Domain Transferable Neural Coherence Model的读后感。1. 论文主旨本文主要是面向跨领域的连贯性建模的相关研究。采用的是一个局部判别模型,可以使用更少的负样本来训练识别不正确的句子顺序。实验证明他们采用的方法既简单又能够在WSJ上显著的超过当前最好的方法,在开放域上更是取得了很好的效果。2. 论文的起点现有的连贯性模型都是特定领域的,这样会使得模型捕获到的不一定是语义上的连贯,而是结构线索的过拟合。2.1 本文想要原创 2020-07-05 16:20:05 · 813 阅读 · 0 评论