【AI视野·今日NLP 自然语言处理论文速览第十七期】Thu, 1 Jul 2021_xlm-e: cross-lingual language model pre-training v-CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/118392525

AI视野·今日CS.NLP 自然语言处理论文速览
Thu, 1 Jul 2021
Totally 28 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computation and Language Papers

On the Power of Saturated Transformers: A View from Circuit Complexity
Authors William Merrill, Yoav Goldberg, Roy Schwartz, Noah A. Smith
变压器已成为许多NLP问题的标准架构。这在理论上是理论上分析它们作为语言模型的能力，以便理解让他们成功的是什么，以及他们的潜在弱点可能是什么。最近的工作表明，具有难以注意的变压器的容量非常有限，实际上可以通过恒定深度电路模拟。然而，很难注意力是限制性假设，这可能使这些结果的实际变压器的相关性复杂化。在这项工作中，我们分析了变压器的电路复杂性随着饱和的注意力的概括，更加紧密地捕捉了实际变压器中可知的注意模式。我们表明饱和变压器超越了难以注意的变压器的局限性。通过一些小假设，我们证明了代表饱和变压器存储器向量所需的比特数是O log n，其意味着可以通过日志深度电路模拟饱和变压器。因此，可以被理解为从难以饱和的关注的跳跃，以增加变压器的有效电路深度为O log n的因子。

An Analysis of the Recent Visibility of the SigDial Conference
Authors Casey Kennington, McKenzie Steenson
自动演讲和文本接口正在继续提高，导致对话系统领域的研究增加。此外，来自各种领域的会议和研讨会通过语音和文本媒体作为候选者的候选者与诸如搜索接口和机器人等应用的候选者来说。在本文中，我们探讨了SIGDIAL会议如何通过分析来自2015年以来的顶级自然语言加工会议的论文来探讨了外部会议，以确定某些SIGDIAL相关主题的普及，以及分析以外的其他人被引用的截止者sigdial。我们发现，尽管对话相关研究具有急剧增加，但仍未提高人格的知名度。我们通过提供一些建议的结论。

Improving Factual Consistency of Abstractive Summarization on Customer Feedback
Authors Yang Liu, Yifei Sun, Vincent Gao
电子商务店收集客户的反馈，让卖家了解客户关注并提高客户订单经验。由于客户反馈经常包含冗余信息，因此可以生成一个简明的反馈摘要来帮助销售者更好地了解导致客户不满的问题。以前的艺术态度摘要模型在从客户反馈的摘要产生了两种主要类型的事实错误，这是错误的实体检测WED和不正确的产品缺陷描述IPD。在这项工作中，我们介绍了一系列方法来提高对客户反馈的抽象总结的事实一致性。我们使用人为腐败的摘要增强了培训数据，并将其作为目标摘要的同行。我们在培训目标中增加了对比损失术语，以便模型学会避免某些事实错误。评估结果表明，对于BART和T5，大部分WED和IPD误差被缓解。此外，我们的方法不依赖于摘要模型的结构，因此可以概括为任何抽象摘要系统。

Early Risk Detection of Pathological Gambling, Self-Harm and Depression Using BERT
Authors Ana Maria Bucur, Adrian Cosma, Liviu P. Dinu
精神疾病的早期风险检测对人们的福祉产生了巨大的积极影响。 Erisk Workshop一直处于开发计算方法的跨学科研究的最前沿，以自动估计抑郁，自我伤害，厌食和病理赌博等心理问题的早期风险因素。在本文中，我们提出了蓝色团队在2021年版的研讨会中，我们解决了从社交媒体帖子中提前发现赌博成瘾，自我危害和估计抑郁症的问题。我们使用预先训练的BERT变压器和数据自动从心理健康削减，并在所有三个任务中获得合理的结果。

Revisiting the Primacy of English in Zero-shot Cross-lingual Transfer
Authors Iulia Turc, Kenton Lee, Jacob Eisenstein, Ming Wei Chang, Kristina Toutanova
尽管取得了成功，但大型预训练的多语言模型并没有完全缓解有关标记数据的需求，这对所有目标语言收集的麻烦是麻烦的。零拍摄交叉曲线转移是由于实用的解决方案预训练模型后来在许多目标语言上测试时的一个传输语言呈现出令人惊讶的性能。英语是转移的主要源语言，由流行的零射门基准加固。但是，此默认选择尚未系统地审核。在我们的研究中，我们将英语与其他转移语言进行比较，以进行微调，两个预训练的多语言型号Mbert和MT5以及多个分类和问题应答任务。我们发现其他高资源语言如德语和俄语经常更有效地传输，尤其是当一组目标语言是多样化的或未知的先验时。出乎意料地，即使培训集自动从英语翻译，这也可能是正确的。此发现可以立即对多语种零拍摄系统产生影响，并应告知未来的基准设计。

The MultiBERTs: BERT Reproductions for Robustness Analysis
Authors Thibault Sellam, Steve Yadlowsky, Jason Wei, Naomi Saphra, Alexander D Amour, Tal Linzen, Jasmijn Bastings, Iulia Turc, Jacob Eisenstein, Dipanjan Das, Ian Tenney, Ellie Pavlick
诸如BERT等预磨料模型的实验通常基于单个检查点。虽然所结论应用于伪像，但是，模型的特定实例，但它们并不总是清楚它们是否适用于包括模型架构，培训数据，初始化方案和丢失功能的更通用程序。最近的工作表明，RE运行预押可以导致关于绩效的基本不同的结论，这表明需要替代评估来对程序进行原理陈述。为了解决这个问题，我们介绍了一组25个BERT基础检查点，具有与原始BERT模型相似的超参数培训，但随机初始化和数据洗牌中的不同。目的是使研究人员能够在预先训练程序中汲取稳健和统计学的结论。完整版本包括25个完全训练的检查点，以及实现我们推荐假设检测方法的统计指南和代码库。最后，对于其中五种模型，我们释放了一组28个中间检查点，以支持学习动态的研究。

XLM-E: Cross-lingual Language Model Pre-training via ELECTRA
Authors Zewen Chi, Shaohan Huang, Li Dong, Shuming Ma, Saksham Singhal, Payal Bajaj, Xia Song, Furu Wei
在本文中，我们介绍了互联语言模型预训练的电力样式任务。具体而言，我们提出了两个预训练任务，即多语言替代的令牌检测，并更换了令牌检测。此外，我们在多语言和平行语料库中预先绘制了XLM E的模型。我们的模型在各种交叉语言理解任务中占据了基线模型，具有较少的计算成本。此外，分析表明，XLM E倾向于获得更好的交叉舌形可转移性。

IMS' Systems for the IWSLT 2021 Low-Resource Speech Translation Task
Authors Pavel Denisov, Manuel Mager, Ngoc Thang Vu
本文介绍了IWSLT 2021低资源语音翻译的提交由IMS团队共享任务。我们利用级联系统的若干数据增强，多任务和转移学习方法以及级联系统的自动语音识别ASR和机器翻译MT步骤的状态。此外，我们还探讨了在标记数据非常约束的地面真理的情况下全新末尾翻译ST模型的可行性。我们的最佳系统可分别实现所有提交的刚果斯瓦希里语系统中的最佳表现，并分别与Bleu分别为7.7和13.7，以及沿海斯瓦希里语与Bleu评分14.9的第二个最佳结果。

News Article Retrieval in Context for Event-centric Narrative Creation
Authors Nikos Voskarides, Edgar Meij, Sabrina Sauer, Maarten de Rijke
记者等作家通常使用自动工具来查找相关内容以包括在他们的叙述中。在本文中，我们专注于支持新闻领域的作家，以制定以中心为中心的叙述。鉴于指定主事件和背景的不完整叙述，我们的目标是检索讨论讨论能够继续叙述的相关事件的新闻文章。我们正式定义这项任务，并提出了一种依赖于现有新闻文章来模拟不完整的叙述和相关文章的检索数据集施工程序。在此过程中导出的两个数据集的实验表明，最先进的词汇和语义排名的状态不足以实现此任务。我们展示将那些与Ranker相结合，通过反向按时间顺序排列文章优于这些排名。我们还对阐明了这项任务特征的结果进行了深度定量和定性分析。

ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information
Authors Zijun Sun, Xiaoya Li, Xiaofei Sun, Yuxian Meng, Xiang Ao, Qing He, Fei Wu, Jiwei Li
最近在中国忽视了汉语雕文和拼音特异的两个重要方面的预押模型，携带了语言理解的重要语法和语义信息。在这项工作中，我们提出了汉语，它将IT字形和IT拼音信息融入了汉字的语言模型预先预测。基于汉字的不同字体获得的字形嵌入，能够从视觉功能中捕获字符语义，拼音嵌入表征汉字的发音，它处理中文中的高度普遍的异常异常现象不同与不同含义的发音。在大规模未标记的中文语料库上预先训练，拟议的汉语德国模型会产生重大的性能，培训步骤较少的基线模型。 PORPOSED模型在广泛的中国NLP任务中实现了新的SOTA表演，包括机器阅读理解，自然语言推断，文本分类，句子对匹配和命名实体识别的竞争性能。代码和预用型号可公开提供

AutoLAW: Augmented Legal Reasoning through Legal Precedent Prediction
Authors Robert Zev Mahari
本文展示了NLP如何用于解决法律界的未满足需求，并增加对司法的获取。本文介绍了合法的先例预测LPP，这是在法律论证的背景下预测先行法院决定中的相关段落的任务。为此，本文展示了BERT模型，由美国联邦法官提出的法律论据的530,000个法律论据的例子训练，以便在法律论证的背景下预测前向法院决定的相关段落。在一个看不见的试验例的96中，正确的目标通道是前10个预测通道。同样的型号能够在复杂和看不见的法律简报上预测有关复杂和看不见的法律简报的简短摘要，预测了简介CO提交人，前美国律师将军和当前美国最高法院埃琳娜卡坎实际引用的先例。

Zero-Shot Estimation of Base Models' Weights in Ensemble of Machine Reading Comprehension Systems for Robust Generalization
Authors Razieh Baradaran, Hossein Amirkhani
机器阅读理解MRC模型的主要挑战之一是他们脆弱的域泛化，这使得这些模型无法适当适用于现实世界的通用问题应答问题。在本文中，我们利用零射加权集合方法来提高MRC模型中域概括的鲁棒性。在所提出的方法中，重量估计模块用于估计域权重，并且集合模块基于其权重聚合几个基础模型预测。实验表明，所提出的方法不仅提高了最终的准确性，而且对域的变化也很健康。

Cross-lingual alignments of ELMo contextual embeddings
Authors Matej Ul ar, Marko Robnik ikonja
用于特定NLP任务的建筑机器学习预测模型需要足够的训练数据，这可能难以获得低资源语言。交叉语言嵌入物地图将单词嵌入从低资源语言到高资源语言，以便在低资源语言中使用来自高资源语言的数据的预测模型。为了产生最近的上下文嵌入的交叉语言映射，嵌入空间之间的锚点必须是同一上下文中的单词。我们用新的方法来解决这个问题，用于创建用于交叉语言上下文对齐的数据集。基于此，我们为Elmo Embeddings提出了新的交叉舌映射方法。我们的线性映射方法使用现有的vecmap并在上下文ELMO Embeddings上对齐。我们的新非线性ELMOGAN映射方法基于GANS，并不承担同构嵌入空间。我们使用两个下游任务，ner和依赖解析评估九种语言的提议映射方法。 ELMOGAN方法对NER任务进行良好，与某些语言的直接培训相比，具有低交叉衰减。在依赖解析中，线性对准变体更成功。

Evaluation of Thematic Coherence in Microblogs
Authors Iman Munire Bilal, Bo Wang, Maria Liakata, Rob Procter, Adam Tsakalidis
集中在同一时间范围内的同一主题的介绍的微博对许多不同的任务和从业者有用。一个主要问题是如何评估此类专题集群的质量。在这里，我们从三个不同的域和时间窗口创建了微博集群的语料库，并定义了评估专题相干性的任务。我们通过记者专家提供批注指南和人类注释的主题一致性。我们随后调查不同自动化评估指标对任务的功效。我们考虑一系列度量标准，包括曲面级度量，主题模型一致性和文本生成度量TGMS。虽然表面级别指标表现良好，但优于主题相辅相色度量，但它们与TGM不那么一致。由于对时间窗口效果的效果不太敏感，TGMS比考虑的所有其他指标更可靠。

End-to-End Spoken Language Understanding using RNN-Transducer ASR
Authors Anirudh Raju, Gautam Tiwari, Milind Rao, Pranav Dheram, Bryan Anderson, Zhe Zhang, Bach Bui, Ariya Rastrow
我们建议结束训练有素的口语语言理解SLU系统，从输入语音发声中提取成绩单，意图和插槽。它包括一种基于流复发性神经网络传感器RNNT的自动语音识别ASR模型，其通过神经界面连接到神经自然语言理解NLU模型。该接口允许使用多任务RNNT和NLU损耗结束结束终端训练。此外，我们为联合RNNT NLU系统介绍了语义序列丢失训练，允许直接优化非可分辨率的SLU度量。结束SLU模型范式可以利用ASR和NLU研究社区中的艺术进步和预用模型的状态，最近提出的直接演奏到语义模型以及传统的流水线ASR和NLU系统。我们表明该方法在公共SLU数据集和大专有数据集中改进了ASR和NLU指标。

Learning to Ask Conversational Questions by Optimizing Levenshtein Distance
Authors Zhongkun Liu, Pengjie Ren, Zhumin Chen, Zhaochun Ren, Maarten de Rijke, Ming Zhou
会话问题简化CQS旨在通过纳入一些会话特征，例如，Anaphora和Ellipsis来简化自给自足的问题。现有的最大似然估计MLE基于MLE的方法通常被困在易于学习的令牌中，因为所有令牌都在训练期间平等对待。在这项工作中，我们介绍了一种强化迭代序列编辑的上升框架，通过显式编辑动作优化最小Levenshtein距离MLD。崛起能够注意与会话特征有关的令牌。为了训练，我们使用基于动态编程的采样DPS过程设计了一种迭代加强训练IRT算法，以改善探索。两个基准数据集上的实验结果表明，上升最优于现有技术的状态，并在看不见的数据上概括。

Whose Opinions Matter? Perspective-aware Models to Identify Opinions of Hate Speech Victims in Abusive Language Detection
Authors Sohail Akhtar, Valerio Basile, Viviana Patti
社交媒体平台为用户提供了表达自由和媒体，交换信息并表达不同的意见。不幸的是，这也导致虐待内容的增长，目的是歧视人民，并针对最脆弱的社区，如移民，LGBT，穆斯林，犹太人和妇女。由于辱骂语言是自然的主观性，因此可能存在高度偏振的主题或事件，涉及滥用言论HS等滥用内容的注释。因此，我们需要新颖的方法来模拟来自不同个人和人口背景的人的冲突的观点和意见。在本文中，我们对不同特征，社会背景，文化等的假设进行了深入研究的模拟了来自不同社区的偏振意见，这些论点可以影响注入者对某种现象的观点。我们相信，通过依靠这些信息，我们可以将注释者分成共享类似的观点的组。我们可以创建单独的黄金标准，一个为每组，培训艺术深入学习模型的状态。我们可以采用集合方法将来自不同组的透视意见分类器与包含的模型组合。我们还提出了一种新颖的资源，一种多透视英语语言数据集根据不同的子类别，用于表征在线滥用仇恨语音，侵略性，冒险性和刻板印象。通过培训艺术深入学习模型的培训，我们展示了我们的方法如何提高艺术监督分类器的预测性能。

Mixed Cross Entropy Loss for Neural Machine Translation
Authors Haoran Li, Wei Lu
在神经机翻译中，交叉熵CE是两种培训方法的标准损失功能，即汽车回归模型，即教师强制和预定的采样。在本文中，我们提出了混合交叉熵损失混合CE作为训练方法的CE替代品。在教师强迫中，用CE将翻译问题训练的模型作为一个到一个映射过程，而在混合CE中，这个过程可以放宽到许多过程。在预定的抽样中，我们表明混合CE有可能鼓励训练和测试行为彼此相似，更有效地减轻曝光偏差问题。我们在两种机器翻译数据集，WMT 16 RO en，WMT 16 ru En和WMT 14 en De中展示了混合CE在CE上的优越性在教师迫使和计划的采样设置中。此外，在WMT 14 en de中，我们还发现混合CE在多参考组以及具有挑战性的解释方案集中始终如一地优于CE。我们还发现用混合CE培训的模型能够提供在翻译输出空间上定义的更好的概率分布。我们的代码可供选择

Incorporating Domain Knowledge for Extractive Summarization of Legal Case Documents
Authors Paheli Bhattacharya, Soham Poddar, Koustav Rudra, Kripabandhu Ghosh, Saptarshi Ghosh
法律案件文件的自动摘要是一个重要而实际的挑战。除了可以用于此目的的许多域名文本摘要算法之外，还开发了几种算法，用于总结法律案例文件。但是，大多数现有算法都没有系统地合并域知识，该知识指定了理想情况下应在法律案例文档摘要中存在的信息。为了解决这一差距，我们提出了一个无监督的摘要算法Delsumm，旨在系统地将来自法律专家的准则纳入优化设置。我们对印度最高法院的案例文件进行详细的实验。实验表明，我们提出的无监督方法在胭脂分数方面优于几种强大的基线，包括总摘要算法和法律特定的方法。事实上，虽然我们提出的算法无监督，但它优于几千个文档摘要对培训的若干监督摘要模型。

Genre determining prediction: Non-standard TAM marking in football language
Authors Jakob Egetenmeyer
德国和法国足球语言显示紧张的方面情绪TAM形式，不同于其他类型的TAM使用。在德国足球谈话中，目前的指示性可能取代Pluperfect虚拟限制。在法国足球比赛的报告中，可能发生不完美的过去而不是完美的过去时态方面。我们认为这两种现象共享一个功能核心并以相同的方式获得许可，这是他们发生的类型的直接结果。更准确地说，足球比赛报告遵守精确的脚本，具体事件在时间上确定客观时间。这允许扬声器利用TAM形式的次要功能，即它们转移时间透视图。我们认为，这是该流派的理由，这是理解者预测偏离形式，也能够解码它们。我们展示了各种语料库研究，我们探讨了这些现象的运作，以便在话语中深入了解其分发，语法化及其在话语中的功能。相关因素是Aktionsart属性，修辞关系及其与其他TAM形式的互动。这使我们能够讨论理解者的应对机制。我们拓宽了我们对这一现象的理解，这些现象只被法语覆盖，现在似乎已经忽略了德语。

Automatically Select Emotion for Response via Personality-affected Emotion Transition
Authors Wen Zhiyuan, Cao Jiannong, Yang Ruosong, Liu Shuaiqi, Shen Jiaxing
为了提供与用户的一致情感互动，对话系统应该能够自动选择适当的情绪，以便像人类一样的反应。然而，大多数现有的作品侧重于在响应中呈现特定的情绪或表情响应用户的情绪，但情绪表达的个人差异被忽视。这可能导致情绪表达不一致和不感兴趣的用户。为了解决这个问题，我们建议用个性配备对话系统，并通过模拟人类在谈话中的情感转换来自动选择情绪。详细地，对话系统的情绪从上下文中的前面的情绪转变为。过渡由前面的对话框上下文触发，受指定个性特征影响。为实现这一目标，我们首先将对话系统中的情感转换模拟作为前面的情绪与响应情绪在价值唤醒优势Vad情感空间中的变化。然后，我们设计神经网络以编码前面的对话框上下文和指定的个性特征来组成变体。最后，从前面的情绪和变化的总和中选择了对响应的情绪。我们用情感和个性标签构建一个对话框数据集，并对情感预测任务进行评估。实验结果验证了人格受影响情绪转型的有效性。

HySPA: Hybrid Span Generation for Scalable Text-to-Graph Extraction
Authors Liliang Ren, Chenkai Sun, Heng Ji, Julia Hockenmaier
图表提取的文本旨在自动提取由自然语言文本的提及和类型组成的信息图表。现有方法，如表填充和成对评分，在各种信息提取任务中显示出令人印象深刻的性能，但由于其二阶空间时间复杂性相对于输入长度，它们难以缩放到具有更长输入文本的数据集。在这项工作中，我们提出了一个混合跨度生成器HYSPA，其将信息图映射到交替的节点和边缘类型序列，并且通过混合跨度解码器直接生成这些序列，该混合跨度解码器可以在线性时间中频繁地解码跨越跨度和类型和空间复杂性。 ACE05数据集的广泛实验表明，我们的方法在联合实体和关系提取任务上也显着优于最新技术。

O2D2: Out-Of-Distribution Detector to Capture Undecidable Trials in Authorship Verification
Authors Benedikt Boenninghoff, Robert M. Nickel, Dorothea Kolossa
PAN 2021 Autheration验证AV挑战是三年策略的一部分，从一个横向主题移动到一个横向主题开放Set AV任务，在一个粉丝文件的集合中开放SET AV任务。在这项工作中，我们介绍了我们改进的混合神经神经概率框架。它基于我们的2020年获奖提交，更新可显着降低局部变化的敏感性，并通过不确定性适应层进一步改善系统校准。我们的框架还包括出于分配检测器O2D2，用于定义非响应，优于参与PAN 2021 AV任务的所有其他系统。

What Can Unsupervised Machine Translation Contribute to High-Resource Language Pairs?
Authors Kelly Marchisio, Markus Freitag, David Grangier
虽然未经监督的机器翻译MT的现有文献侧重于利用低资源语言对的无监督技术，其中双语培训数据恐慌或不可用，我们调查无监督的MT还可以提高高资源语言对的译本质量，其中存在足够的BITEXT。我们比较由监督或无监督的MT生成的正确翻译的风格，并发现无监督的输出较少单调更自然而不是监督输出。我们展示了将无人监督和监督MT的好处结合到一个系统中的一种方法，从而更好地人类评估质量和流利。我们的结果开放了讨论无监督MT在高资源环境中的潜在贡献的大门，以及监督和无监督系统如何互利。

A Conditional Splitting Framework for Efficient Constituency Parsing
Authors Thanh Tung Nguyen, Xuan Phi Nguyen, Shafiq Joty, Xiaoli Li
我们介绍了一个通用的SEQ2Seq解析框架，将选区解析问题划分为句法和话语解析成一系列条件分裂决策。我们的解析模型估计给定文本跨度中可能分割点的条件概率分布，并支持有效的顶部下向解码，其在节点数量中是线性的。条件分离制剂与有效的光束搜索推理一起有助于结构一致性而不依赖于昂贵的结构推断。至关重要的是，对于话语分析，我们表明，在我们的配方中，话语分割可以被诬陷为解析的特殊情况，这使我们能够执行话语解析，而无需分段为先决条件。实验表明，我们的模型在没有预先训练的表示和艺术SOTA方法的情况下的设置下的标准句法解析任务的良好结果良好的结果，这些方法比我们的艺术SOTA方法更加计算。在话语解析中，我们的方法通过良好的保证金优于SOTA。

Alzheimer's Dementia Recognition Using Acoustic, Lexical, Disfluency and Speech Pause Features Robust to Noisy Inputs
Authors Morteza Rohanian, Julian Hough, Matthew Purver
我们呈现了两个基于多模式融合的深度学习模型，可以同时消耗ASR转录的语音和声学数据，以分类结构化诊断任务中的扬声器是否具有Alzheimer S疾病，以及评估地址挑战2021数据的程度。我们最好的型号，使用单词，单词概率，失风特征，暂停信息和各种声学特征的Bilstm，实现了84和RSME误差预测的准确性，4.26对MMSE认知分数为4.26。在预测认知下降的同时，我们的模型展示了使用多式联法方法和单词概率，不仅仅是单词模型的概率，失败和暂停信息的改进。我们使用多模式融合和门控显示广告分类的相当大的收益，这可以有效地处理声学特征和ASR假设的噪声输入。

SAT Based Analogy Evaluation Framework for Persian Word Embeddings
Authors Seyyed Ehsan Mahmoudi, Mehrnoush Shamsfard
近年来，在嵌入词中是一种特别兴趣作为一种将话语转换为向量的新方法。它是一个焦点，了解这些词的语义是多少已转移到嵌入向量中的语义。这是重要的，因为嵌入将被用作下游NLP应用程序的基础，评估应用端结束的速度是昂贵的，以便识别所使用的嵌入模型的质量。通常，嵌入词通过多个测试（包括类比测试）进行评估。在本文中，我们向波斯嵌入模型提出了一个测试框架。波斯语是一种低资源语言，没有丰富的语义基准测试来评估这种语言的嵌入模型。在本文中，我们介绍了一种评估框架，包括一只手工制作的波斯SAT基于类似的类比数据集，一个特定于波斯的思珠测试集和基准，以研究各种参数对语义评估任务的影响。

A Diverse Corpus for Evaluating and Developing English Math Word Problem Solvers
Authors Shen Yun Miao, Chao Chun Liang, Keh Yih Su
我们展示了Asdiv Academia Sinica多样化MWP数据集，这是一种不同于语言模式和问题的多样化，介绍了英语数学词问题MWP语料库，用于评估各种MWP求解器的能力。用于学习AI进展的现有MWP Corpora在语言使用模式或问题类型中仍然有限。因此，我们展示了一个新的英语MWP语料库，其中2,305 MWPS涵盖了小学中教授的更多文本模式和大多数问题类型。每个MWP都以其问题类型和等级水平注释，以指示难度水平。此外，我们提出了一个指标来衡量给定MWP语料库的词汇使用多样性，并证明ASDIV比现有的基础更多样化。实验表明，我们的拟议语料库更忠实地反映了MWP求解器的真正能力。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com