![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP研究笔记
文章平均质量分 88
肉丸先生呀
这个作者很懒,什么都没留下…
展开
-
R-Drop——更强大的dropout
让正则化更加智能原创 2021-09-01 23:02:04 · 1576 阅读 · 0 评论 -
2020EMNLP新任务:AMBIGQA——模糊QA论文阅读
2020EMNLP New Task: AMBIGQA背景数据集评估准则基线REFERENCE今年论文初步决定从这篇新任务入手,任务有价值并且有待开发空间。先挖个坑读一读。背景该任务提出了AMBIGQA,目的是解决开放域问答系统问题答案模糊的任务。简单来说就是把消歧引入到了QA领域中,且是open-domain的。#举个例子Q:《哈利波特:魔法石》什么时候上映的?Para:《哈利波特:魔法石》在2001年11月4号在欧洲上映,……,2001年11月26日在北美上映时,就已经斩获了两亿美元票房的佳原创 2021-03-13 22:59:39 · 498 阅读 · 1 评论 -
【论文翻译】2020.8 清华大学AI课题组——大型中文短文本对话数据集(A Large-Scale Chinese Short-Text Conversation Dataset)
大型中文短文本对话数据集写在前面:研究用,原创翻译,转载请标明出处;第一次译文,之后会跟进完善。摘要 生成式对话的神经网络模型在建立短文本对话模型方向上取得了可喜的结果。然而,通过训练得到这样的模型通常需要大规模高质量的对话语料,而这种语料是很难获取的。在本文中,我们提供了大规模已清洗中文对话数据集LCCC,其中包含了基础版本(680万条语料)和大规模版本(共1200万条语料)。我们使用一组规则以及11万条人工标注的对话对训练的分类器,这是该数据集质量的保证。我们同时也分别针对LCCC-ba翻译 2020-09-14 23:19:19 · 4119 阅读 · 0 评论