- 热门论文 -
题目:ExT5: Towards Extreme Multi-Task Scaling for Transfer Learning
尽管多任务学习和自然语言处理迁移学习(NLP)最近取得了成功,但很少有研究系统地研究在训练前增加任务数量的效果。为了实现这一目标,本文介绍了ExMix即ExtremeMixe:一个跨越不同领域和任务族的107个受监督NLP任务的大规模集合。使用ExMix,我们研究了迄今为止规模最大的多任务预训练的效果,并分析了常见任务族之间的共同训练迁移。通过这一分析,我们表明,为多任务预训练手动策划一组理想的任务并不简单,而且多任务缩放本身可以极大地改进模型。最后,我们提出了ExT5:一个使用自监督范围去噪和监督ExMix的多任务目标预训练的模型。通过大量的实验,我们发现ExT5在SuperGLUE、GEM、Rainbow、闭卷QA任务以及ExMix之外的一些任务上优于强大的T5基线。ExT5还显著提高了预训练时的样本效率。
论文地址:
https://arxiv.org/pdf/2111.10952v1.pdf
- 热门工具 -
1. NLTK
NLTK(Natural Language Toolkit),自然语言处理工具包,在NLP(自然语言处理)领域中,最常使用的一个Python库。自带语料库,词性分类库。自带分类,分词功能。
此工具包兼容极链AI云平台,相关地址:
https://github.com/hb20007/hands-on-nltk-tutorial
2. CoreNLP
Corenlp提供了一系列用Java编写的自然语言分析工具。它可以采取原始的人文语言文本输入并给出基本形式的单词,他们的言论,无论是公司,人类等的名称,均衡和解释日期,时间和数字数量,标志着句子的结构在短语或单词依赖项方面,指示哪些名词短语是指同一实体。它最初是为英语开发的,但现在还提供了不同于(现代标准)阿拉伯语,(大陆)中文,法语,德语和西班牙语的不同水平。
此工具包兼容极链AI云平台,相关地址:
https://github.com/stanfordnlp/CoreNLP
- 程序员区 -
IntelliJ IDEA 2021.3 RC发布
新版本的一些亮点更新包括有:支持远程开发 (Beta),此功能允许软件工程师连接到运行IDE后端的远程计算机,并像在本地机器上一样处理位于该端的项目。故障排除IDE问题,查看诊断和修 IDE 问题的新的、更快的方法。Kotlin 调试器更新。
PhpStorm 2021.3 RC发布
除了即将发布的版本的新功能之外,此版本还介绍了 Remote Development,通过Remote Development,用户将可以连接到运行IDE后端的远程计算机,并处理位于该后端的项目,
Apache Kafka 2.7.2 发布
主要更新内容:升级 jetty-server 以修复 CVE-2021-34429;修复了如果任务在启动期间失败,则失败任务计数 JMX 指标不会更新;恢复 GlobalKTable 时的无限循环;修复了FileStreamSourceTask 缓冲区可以无限增长的错误等。
Apache Maven 3.8.4发布
此版本更新内容如下: 修复了Maven启动脚本(init)调用 which(1),这是一