NLP简报(Issue #3)

欢迎来到NLP时事简报!第三期涵盖了诸如改进会话代理、特定语言BERT模型、免费数据集、深度学习库等主题。

1、Publications 📙

1.1 Language-specific BERT models

我已经记不清现在有多少种特定语言的BERT模型了,这里有一些最新的版本:

大多数这些模型也可以通过huggingFace的Transformer库获得,该库最近升级到了2.4.1

1.2 Overly Optimistic Prediction Results on Imbalanced Data: Flaws and Benefits of Applying Over-sampling

这篇论文揭示并广泛讨论了在对数据集进行划分之前应用过采样来处理不平衡数据集的缺点和优点。此外,该工作复现了先前的研究,并确定了导致过于乐观的结果的方法论缺陷。

1.3 Encode, Tag and Realize: A Controllable and Efficient Approach for Text Generation

为了减少基于seq2seq的文本生成方法中常见的 hallucination (产生输入文本不支持的输出)的影响,Google工程师公开了一种称为LaserTagger的文本生成方法。该方法的主要思想是通过使用预测的编辑操作(例如KEEPDELETE-ADD等)标记单词并在所谓的realization step中将其应用于输入单词来产生输出。

这代替了通常只从头生成输出的文本生成方法,这种方法通常很慢而且容易出错。该模型除了产生更少的错误外,还提供了其他好处,例如,在进行少量训练示例的情况下,可以在实现并行预测的同时进行编辑操作,同时仍保持良好的准确性并优于BERT baseline。
LaserTagger用于句子融合。 预测的编辑操作对应于删除“. Turing”并在其之前添加“and he”。 注意输入和输出文本之间的高度重叠。”

1.4 Convolutional Neural Networks as a Model of the Visual System: Past, Present, and Future

Grace Lindsay发布了这份关于CNN历史的精美且易于阅读的报告,以及如何将它们作为生物视觉的模型进行评估,即CNN表示与大脑的表示相比如何?强烈建议读者关注这份利用CNN进行视觉研究的讨论。
在这里插入图片描述

1.5 Multilingual Denoising Pre-training for Neural Machine Translation

Facebook AI发布了mBART,一种基于多语言seq2seq去噪自动编码器的方法,该方法在大规模单语言语料库上进行了预训练,可用于25种语言的机器翻译。这项工作遵循Lewis等人(BART,2019)的预训练方案,并研究了去噪预训练对韩文,日文和土耳其文等多种语言的影响。输入文本涉及对短语的掩盖和对句子的置换(加噪),学习了一种基于Transformer的模型跨多种语言重建文本。 完整的自回归模型仅训练一次,并且可以在任何语言对上进行微调而无需进行任何特定于任务或特定于语言的修改。 此外,解决了文档级和句子级的翻译问题。 除了表现出性能提升外,作者还声称该方法在低资源机器翻译方面效果很好。
在这里插入图片描述

1.6 On improving conversational agents

Meena是一种neural conversational agents,旨在进行更明智和更具体的改进对话----定义为从人类对话中捕获重要属性(例如,流畅度)的指标。 该模型通过编码器学习会话上下文,并通过解码器制定合理的响应。 据报道,通过考虑使用更强大的解码器可以提高通话质量。

你也可以了解Alan Nichol(Rasa HQ的联合创始人)关于这项工作的想法

2、Creativity and Society 🎨

2.1 ML tools — reading comprehension test and sentiment analyzer

Ming Cheuk构建了这个有趣的应用程序Albert Learns to Read,可以测试经过深度学习方法训练的模型的阅读理解能力,尤其是使用Google AI的语言模型ALBERT。 ALBERT是BERT的微型版本,用于学习语言表示。 作者在博客Teaching Machines to Read详细介绍了该项目和使用的方法。
在这里插入图片描述

2.2 A Self-Taught AI Researcher at Google

在这个采访添加链接描述中,您可以直接从Google Art&Culture的ML研究人员Emil那里听到有关他作为一名自学成才的研究人员从事AI事业的经历。

3、Tools and Datasets ⚙️

3.1 Free Datasets

Google数据集搜索正式退出测试版,现在可提供多达2500万个数据集进行搜索。 如果您想获得下一个数据科学或机器学习项目的灵感,那么这里是查找对整个Internet上托管的数据集的引用的地方。 它基本上是用于数据集的搜索引擎,这是一项了不起的工作,需要付出巨大的努力!

Big Bad NLP数据库是一个网站,您可以在其中搜索200多种NLP数据集的专用数据库,以执行诸如常识,情感分析,问题回答,蕴含推理等任务。

3.2 Reinforcement learning library

最近,Chris Nota开发并发布了PyTorch库,用于基于流行的深度RL算法(例如DQN,PPO和DDPG等)来构建强化学习代理。 该库的重点是面向对象的设计,并能够快速实施和评估新型强化学习代理。

3.3 ML Explainability and Interpretability

如果你当前正在使用基于文本的语言模型,并且想了解在应用于不同语言任务时如何更轻松地解释它们,那么你可能会对Captum感兴趣。 Captum是一个可解释性库,可用于分析功能重要性,解释文本和视觉模型,解释多峰模型以及其他模型(例如用于回答问题的BERT)。

如果你对模型的可解释性感兴趣,那么这套教程也可能会让您感兴趣。 它包括通过notebook了解功能重要性的方法。

3.4 Machine learning and deep learning libraries

Google Research团队发布了Flax,一种基于JAX的灵活而强大的神经网络库,该库提供了使用典型的Numpy API进行快速计算和训练机器学习模型的框架。
Flax语法
Thinc是由spaCy的开发者开发的轻量级深度学习库。 它提供了功能编程API,用于组成,配置和部署使用PyTorch和TensorFlow之类的库构建的自定义模型。

Lyft发布了Flyte,它是一个多租户,可用于生产的无服务器平台,用于部署并发,可伸缩和可维护的ML和数据处理工作流。

3.5 A tool for conversational AI

开源对话式AI框架DeepPavlov为构建对话系统和复杂的对话系统提供了免费且易于使用的解决方案。 DeepPavlov带有几个预定义的组件,用于解决与NLP相关的问题。 它将BERT(包括会话BERT)集成到三个下游任务中:文本分类,命名实体识别(和一般的序列标记)以及问题解答。 结果,它在所有这些任务上都取得了重大改进。 (Google Colab | Blog | Demo)

4、Ethics in AI 🚨

4.1 Facial recognition and privacy

纽约时报针对与面部识别技术有关的隐私的不同观点撰写了一篇有趣的报告。 这个故事的重点是一个名为“ Clearview”的“秘密公司”,据称该公司使用AI技术通过从Twitter,Facebook和YouTube等社交媒体网站上抓取的图像来构建通用的面部识别。 所述技术引起了人们对隐私的担忧,但是据称它还主要用于执法。 点击此处阅读更多故事。

4.2 Human-Level AI Progress

Jeremy Kahn在这个报告中广泛讨论了在AI技术的当前发展背景下“ Narrow AI”和“ General AI”之间的区别。 除了讨论的许多主题之外,关于(如果可能的话)实现AGI的回报还有很多问题。 该报告还提到了大型高科技公司最近对这些努力进行投资的兴趣。 最值得注意的是,该报告包括一些受人尊敬的研究人员提出的一些担忧,他们声称某些试图操纵AI叙述以利于他们的研究组织表现出“不负责任和不道德”的行为。

4.3 Understanding AI Ethics and Safety

Dr.David Leslie发表了这份非常详尽的报告,主题涉及有助于在道德和安全方面更好地理解人工智能的主题。 它旨在帮助开发人员和研究人员更好地为公共部门设计和实施AI系统。
在这里插入图片描述

5、Articles and Blog posts ✍️

5.1 Speeding up tokenization tutorial

Steven van de Graaf撰写了这篇文章,报告说,与使用Transformers中的标准内置标记器相比,使用HuggingFace的新Tokenizer库的性能有所提高。 Steven报告说,其速度提高了9倍,并且实现过程花费了10.6秒来标记100万个句子。

5.2 Can language models really comprehend?

The Gradient最近在Gary Marcus的这篇文章中发表,他讨论了他认为是GPT-2等语言模型背后的基本缺陷的内容。 Gary Marcus的主要观点是,经过训练能够预测下一个单词的模型不一定是可以理解或推理的模型,即“预测是理解的组成部分,而不是整体。” 他还讨论了在语言环境中先天性的重要性,并指出当前的语言模型没有考虑到这一点。

5.3 Curriculum for Reinforcement Learning

设计基于课程的方法可以帮助RL agent学习吗? Lillian Weng总结了几种基于课程的方法,以及如何利用它们来培训有效的强化学习代理。 Weng讨论了设计高效的课程学习方法所面临的挑战,该方法通常需要对任务的复杂性进行排序,并向模型提供一系列任务,这些任务会增加培训过程中的难度。
在这里插入图片描述

5.4 Introduction to NumPy

我总是推荐任何机器学习入门的人来使用NumPy进行大量练习。 当今,许多用于深度学习和机器学习的高级库都以某种方式使用NumPy API,因此它是内部了解的非常重要的工具。 Anne Bonner最近发布了这个非常详细的numpy教程,介绍了NumPy的基础。
在这里插入图片描述

6、Education 🎓

6.1 Foundations of machine learning and statistical inference

来自加州理工学院的Anima Anandkumar发布了一门名为“机器学习和统计推论的基础”的课程。 该课程侧重于ML概念,例如矩阵,张量,优化,概率模型,神经网络等。 这是一门很棒的课程,因为它侧重于ML的理论方面,这对于理解和改进更高级的方法同样重要。 (视频播放列表|课程提纲

6.2 Deep Learning Lecture Series

DeepMind与UCL合作发布了深度学习讲座系列,其中包括12个讲座,这些讲座将由DeepMind的领先研究科学家进行。 主题包括如何使用注意力,记忆力和生成模型等方法训练神经网络。

6.3 Open Syllabus

教育是不断发展的社区和整个行业的重要组成部分。 这是种植创新种子的地方。 Open Syllabus是一个非营利性组织,它利用众包的力量将高等教育课程映射到一个免费的在线数据库中。 它目前包含大约700万个教学大纲。
在这里插入图片描述

6.4 Discussing, Sharing, and Learning about ML

r/ResearchML是用于讨论ML论文的新的机器学习子目录。 这一主题更侧重于研究并鼓励更深入的讨论。

PracticalAI是一个网站,你可以在其中浏览和发现由社区和专家策划的ML主题。

在这里插入图片描述

7、Notable Mentions ⭐️

How we built the good first issues feature:了解有关GitHub如何利用机器学习为开发人员发现简单和个性化问题的更多信息,以便他们可以解决与他们的兴趣相匹配的问题。 这鼓励了来自开源贡献者的更快和更多的贡献。

紧跟Sebastian Ruder的 NLP News,以获取最新的NLP最新新闻。 重点包括NLP进展的更新,过去十年的回顾,新的NLP课程以及其他主题。

一份超赞的TensorFlow 2.0深度学习notebook列表,范围从CycleGAN到Transformers到图像字幕任务。 它们由LBNL的科学学院深度学习公开发布。

一篇令人印象深刻且易于理解的博客文章,解释了贝叶斯神经网络的基础,入门的绝佳介绍。

An Opinionated Guide to ML Research:John Schulman就如何更好地选择研究问题以及在实施和解决手头的研究任务方面更具战略性等方面,为即将到来的机器学习研究人员提供了一些建议,还分享了个人发展和持续进步的技巧。


Github版本的NLP简报

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值