远监督方法（distance supervison）——标注语料库

最新推荐文章于 2022-12-14 20:52:33 发布

Wenyu_1307

最新推荐文章于 2022-12-14 20:52:33 发布

阅读量1.1k

点赞数

1 什么是distance supervison？

reference

Generating Multiple Diverse Responses with Multi-Mapping and Posterior Mapping Selection

1 提出了多映射机制

2 后验映射机制

3 引入基于语义匹配的辅助优化目标()

reference

Generating Multiple Diverse Responses with Multi-Mapping and Posterior Mapping Selection

1 提出了多映射机制

2 后验映射机制

3 引入基于语义匹配的辅助优化目标(matching loss)

A PaddlePaddle Baseline for 2019 MRQA Shared Task

预训练语言模型：ERNIE (Enhanced Representation through kNowledge IntEgration) 是百度提出知识增强的语义表示模型。我们的 ERNIE 基线比 MRQA 官方的 BERT 基线在域外验证集上的结果高出 6.1 个百分点（marco-f1）。

多卡微调和预测：该基线支持使用多 GPU 进行微调和预测，方便研究人员和开发者加快实验效率。

一键复现：提供了一个简单易用的系统，方便研发人员和开发者快速复现实验结果，并在此基础上开发新的模型

OleNet at SemEval-2019 Task 9: BERT based Multi-Perspective Models for Suggestion Mining

评论建议挖掘对提升企业服务具有极高价值。百度团队构建了以大规模无监督数据为基础的跨领域、多句式深度语义分类模型，以解决任务标注数据过于稀疏的问题。采用融合浅层学习和深度学习的 Ensemble 学习模型，以解决样本不平衡问题。面对网络文本形式多样、表达不规范的现状，团队采用精细化粒度特征和注意力迁移机制进行处理。最终，百度团队以 F 值 78.12% 的成绩战胜了来自全球的 210 余支队伍，夺得冠军。

ACL2019-STACL: Simultaneous Translation with Implicit Anticipation and Controllable Latency using Prefix-to-Prefix Framework

摘要：同声翻译是人工智能领域公认的最难问题之一，已经困扰学术界和工业界几十年了。我们提出了历史上第一个超前预测和可控延迟的同声翻译算法。去年 10 月发布以来，被各大技术外媒广泛报导，包括 MIT 技术评论、IEEE Spectrum、财富杂志等。量子位总结报道：「这是 2016 年百度 Deep Speech 2 发布以来，又一项让技术外媒们如此激动的新进展。」

应用价值：2018 年 11 月的百度世界大会采用了这项同传技术，全程同传翻译了李彦宏所有演讲，延迟仅为 3 秒左右，而之前的整句翻译技术延迟为一整句（可达 10 秒以上）。同时，翻译质量也没有明显的下降。

论文地址：https://arxiv.org/abs/1810.08398
GitHub 地址：coming soon

ACL2019：Robust Neural Machine Translation with Joint Textual and Phonetic Embedding

摘要：该文章旨在提高翻译的鲁棒性，特别是对同音词噪音的鲁棒性。我们在翻译的输入端，通过联合嵌入的方式，加入输入单词对应的发音信息。实验结果表明，该方法不仅大大提高了翻译系统在噪声情况下的鲁棒性，也大幅提高了翻译系统在非噪声情况下的性能。

应用价值：可用于翻译，特别是语音到语音的同声传译系统。语音翻译的一个主要难题是语音识别的错误太多，而这些错误大多是同音词或发音相似的单词，此技术可以很大程度上降低这些来自于语音识别的噪音。

ACL2019-SEEDS：Know More about Each Other: Evolving Dialogue Strategy via Compound Assessment

摘要：现有的基于监督学习的对话系统，缺乏对多轮回复方向的控制和规划，通常导致对话中发生重复、发散等问题，使得用户的交互体验偏差。在本文中，我们对多轮对话进行了复合评估 (compound assessment)，并基于该评估利用强化学习优化两个自对话 (self-play) 的机器人，促进生成过程中较好地控制多轮对话的方向。考虑到对话的一个主要动机是进行有效的信息交换，针对 Persona Chat 问题（两个人相互对话聊兴趣爱好），我们设计了一个较为完善的评估系统，包括对话的信息量和连贯度两个主要方面。

我们利用复合评估作为 reward，基于策略梯度算法 (policy gradient)，指导优化两个同构的对话生成机器人之间的对话策略 (dialogue strategy)。该对话策略通过控制知识的选择来主导对话的流向。我们公开数据集上进行了全面的实验，结果验证了我们提出的方法生成的多轮对话质量，显著超过其他最优方法。

Wenyu_1307

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
远监督方法（distance supervison）——标注语料库

1 什么是distance supervison？referenceGenerating Multiple Diverse Responses with Multi-Mapping and Posterior Mapping Selection1 提出了多映射机制2 后验映射机制3 引入基于语义匹配的辅助优化目标()referenceGenerating Multipl...
复制链接

扫一扫