2018年AI和ML（NLP，计算机视觉，强化学习）技术概述和2019年趋势

最新推荐文章于 2024-07-16 11:55:56 发布

zsffuture

最新推荐文章于 2024-07-16 11:55:56 发布

阅读量3.6k

点赞数 5

分类专栏：自然语言处理

本文链接：https://blog.csdn.net/weixin_42398658/article/details/85395683

版权

自然语言处理专栏收录该内容

34 篇文章 166 订阅

订阅专栏

前面两篇主要介绍了基于深度学习的自然语言处理，这是去年以前的成果，下面这一篇是总结今年NLP的最新成果，大家可以看看，找到对应论文好好研究，当然这还是外国人写的，没办法，国内很少有人能总结的那么透彻，一是因为大多数都是学习者，而不是应用者，所以能全局把控整个AI界的研究动向并写出来的人很少，因此翻译过来供大家阅读参考：

介绍

在过去的几年里, 人工智能爱好者和机器学习专业人员都在梦幻般地进行。这些技术已经从一个利基发展成为主流, 并正在影响今天的数百万人的生活。各国现在有专门的大赦国际部长和预算, 以确保他们在这场比赛中保持相关性。

数据科学专业人员也是如此。几年前--你会很乐意知道一些工具和技术。别再这样了!在这一领域发生了如此多的事情, 也有如此多的事情需要跟上--有时让人感到不可思议。

这就是为什么我想退一步, 从数据科学从业者的角度来看待人工智能某些关键领域的发展。这些突破是什么？2018年发生了什么, 2019年可以期待什么？阅读这篇文章了解更多!

和任何预测一样, 这些都是我的选择。这些都是基于我试图连接点。如果你有不同的观点--我很想听。一定要让我知道你认为2019年可能会发生什么变化。

我们将在本文中介绍的区域

自然语言处理 (nlp)
计算机视觉
工具和库
强化学习
人工智能为善--走向道德的人工智能

自然语言处理 (nlp)

让机器解析单词和句子似乎总是一个梦想。有时一种语言的细微差别和方面，甚至人类有时难以掌握。但2018年确实是NLP的分水岭。

我们看到了一个又一个显着的突破 - ULMFiT，ELMO，OpenAI的Transformer和Google的BERT等等。迁移学习（能够将预训练模型应用于数据的技术）成功应用于NLP任务，为可能无限的应用打开了大门。我们与塞巴斯蒂安·鲁德的播客进一步巩固了我们对他的音乐场近期走多远的信念。作为旁注，这是所有NLP爱好者必读的播客。

让我们更详细地看一下这些关键的发展。如果你想学习NLP中的线索，并且正在寻找一个入门的地方，请确保你使用Python的' NLP '课程。这是一个开始你的文本推动旅程的好地方！

ULMFiT（通用语言模型的微调）

ULMFiT（通用语言模型的微调）出自ACL 2018论文：Universal Language Model Fine-tuning for Text Classification。

该模型由Sebastian Ruder和fast.ai的Jeremy Howard设计，ULMFiT是第一个在今年启动NLP通用学习的框架。对于没有经验的人来说，它代表通用语言模型微调。Jeremy和Sebastian在ULMFiT中真正地使用了Universal这个词 - 该框架几乎可以应用于任何NLP任务！

关于ULMFiT的最佳部分以及我们即将看到的后续框架？你不需要从头开始训练模型！这些研究人员为您做了很多努力 - 学习并将其应用到您自己的项目中。ULMFiT在六个文本分类任务中的表现优于最先进的方法。

您可以阅读Prateek Joshi关于如何开始使用ULMFiT以解决任何文本分类问题的优秀教程。

正是这篇论文，打响了今年NLP迁移学习狂欢的第一枪。论文两名作者一是Fast.ai创始人Jeremy Howard，在迁移学习上经验丰富；一是自然语言处理方向的博士生Sebastian Ruder，他的NLP博客几乎所有同行都在读。两个人的专长综合起来，就有了ULMFiT。想要搞定一项NLP任务，不再需要从0开始训练模型，拿来ULMFiT，用少量数据微调一下，它就可以在新任务上实现更好的性能。详细的说明可以读他们的论文：https://arxiv.org/abs/1801.06146Fast.ai网站上放出了训练脚本、模型等：http://nlp.fast.ai/category/classification.html

ELMO

想猜猜 ELMO 代表什么吗？它是语言模型嵌入的缩写。很有创意, 是吧？除了它的名字类似于著名的芝麻街的角色外, ELMO 一发布就引起了 ml 社区的注意。“语言模型的词嵌入”，出自艾伦人工智能研究院和华盛顿大学的论文Deep contextualized word representations，NLP顶会NAACL HLT 2018的优秀论文之一。

ELMO 使用语言模型来获取每个单词的嵌入, 同时也考虑单词适合句子或段落的上下文。语境是 nlp 的一个非常关键的方面, 大多数人以前都没有把握。ELMO 使用双向 LSTM 来创建嵌入。不要担心, 如果这听起来像一口-看看这篇文章, 得到一个真正简单的概述什么是 LSTM, 以及他们是如何工作。

与 ULMFiT一样, ELMO 显著提高了各种 NLP 任务的性能, 如情绪分析和问题回答。点击此处了解更多相关信息。

谷歌的BERT

不少专家声称BERT的发布标志着NLP的新时代。继ULMFiT和ELMo之后，BERT凭借其性能真正击败了竞争对手。正如原始论文所述，“BERT在概念上简单且经验强大”。

BERT在11个（是的，11个！）NLP任务中获得了最先进的结果。在SQuAD基准测试中查看他们的结果：

SQuAD v1.1排行榜（2018年10月8日）	测试EM	测试F1
第一名合奏团 - BERT	87.4	93.2
第二名合奏团 - nlnet	86.0	91.7
第一名单身模型 - BERT	85.1	91.8
第二名单身模特 - nlnet	83.5	90.1

如果你还没有读过BERT的论文，真的应该在2018年结束前补完这一课：https://arxiv.org/abs/1810.04805另外，Google官方开源了训练代码和预训练模型：https://github.com/google-research/bert如果你是PyTorch党，也不怕。这里还有官方推荐的PyTorch重实现和转换脚本：https://github.com/huggingface/pytorch-pretrained-BERT

Facebook的PyText

Facebook如何能够退出竞争？他们开源了他们自己的深度学习NLP框架PyText。它本周早些时候发布，所以我仍然要试验它，但早期的评论非常有希望。根据FB发表的研究，PyText使会话模型的准确性提高了10％，并缩短了训练时间。

PyText实际上落后于Facebook的一些产品，如FB Messenger。因此，努力为您自己的投资组合增加一些现实世界的价值（除了您将获得的宝贵知识）。

您可以通过从此GitHub存储库下载代码来自行尝试。

Google Duplex

如果前面这些研究对你来说都太抽象的话，Duplex则是NLP进展的最生动例证。名字有点陌生？不过这个产品你一定听说过，它就是Google在2018年I/O开发者大会上展示的“打电话AI”。

它能主动打电话给美发店、餐馆预约服务，全程流畅交流，简直以假乱真。Google董事长John Hennessy后来称之为“非凡的突破”，还说：“在预约领域，这个AI已经通过了图灵测试。”Duplex在多轮对话中表现出的理解能力、合成语音的自然程度，都是NLP目前水平的体现。如果你还没看过它的视频……（建议看看哈，挺牛逼的）

NLP趋势将在2019年出现

谁比塞巴斯蒂安·罗德本人更好地处理了NLP在2019年的发展方向？以下是他的想法：

预训练的语言模型嵌入将无处不在 ; 拥有不使用它们的最先进模型将是罕见的
我们将看到可以编码专门信息的预训练表示，这些信息是对语言模型嵌入的补充。我们将能够根据任务的要求组合不同类型的预训练表示
我们将看到有关多语言应用程序和跨语言模型的更多工作。特别是，在跨语言嵌入的基础上，我们将看到深度预训练的跨语言表示的出现

计算机视觉

这是现在深度学习领域中最受欢迎的领域。我觉得我们已经在很大程度上汲取了计算机视觉的低调成果，并且已经处于精炼阶段。无论是图像还是视频，我们都看到了大量的框架和库，这使得计算机视觉任务变得轻而易举。

我们在Analytics Vidhya今年花了很多时间研究这些概念的民主化。在这里查看我们的计算机视觉特定文章，涵盖从视频和图像中的对象检测到预训练模型列表的主题，以开始您的深度学习之旅。

以下是我今年在CV中看到的最佳开发项目。

如果你对这个奇妙的领域感到好奇（实际上很快就会成为业内最热门的工作之一），那么请继续使用我们的“ 计算机视觉使用Deep Learnin g”课程开始你的旅程。

BigGAN的发布

今年9月，当搭载BigGAN的双盲评审中的ICLR 2019论文现身，行家们就沸腾了：简直看不出这是GAN自己生成的。

除非你拿显微镜看，否则你将无法判断该系列是否有任何问题。关注还是令人兴奋？我会把它留给你，但毫无疑问GAN正在改变我们对数字图像（和视频）的感知方式。

对于那里的数据科学家来说，这些模型首先在ImageNet数据集上进行训练，然后是JFT-300M数据，以展示这些模型从一组到另一组的良好传递。我还要引导您进入GAN解剖页面 - 一种可视化和理解GAN的非常酷的方式。

在计算机图像研究史上，BigGAN的效果比前人进步了一大截。比如在ImageNet上进行128×128分辨率的训练后，它的Inception Score（IS）得分166.3，是之前最佳得分52.52分3倍。

除了搞定128×128小图之外，BigGAN还能直接在256×256、512×512的ImageNet数据上训练，生成更让人信服的样本。

在论文中研究人员揭秘，BigGAN的惊人效果背后，真的付出了金钱的代价，最多要用512个TPU训练，费用可达11万美元，合人民币76万元。

不止是模型参数多，训练规模也是有GAN以来最大的。它的参数是前人的2-4倍，批次大小是前人的8倍。

研究论文：https://openreview.net/pdf?id=B1xsqj09Fm

Fast.ai 18分钟训练整个ImageNet

这是一个非常酷的发展。有一个非常普遍的信念, 你需要大量的数据和大量的计算资源来执行适当的深度学习任务。这包括从头开始在 imagenet 数据集上训练模型。我理解这种看法-- 我们大多数人都有同样的想法, 找到了证明我们所有人都错的方法。

他们的模型在令人印象深刻的18分钟时间内给出了93% 的精度。他们使用的硬件在他们的博客文章中详细介绍了包含16个公共 aws 云实例, 每个实例都有 8个 nvidia v100 gpu。他们使用 fastai 和 pytorch 库构建了该算法。

将整件物品放在一起的总成本仅为 40美元！ 杰里米在这里更详细地描述了他们的方法，包括技术。每个人都赢了！

NVIDIA的vid2vid技术

在过去的4 - 5年里，图像处理已经实现了跨越式发展，但视频呢？事实证明，将方法从静态框架转换为动态框架比大多数人想象的要困难一些。你能拍摄视频序列并预测下一帧会发生什么吗？它之前已被探索过，但已发表的研究充其量只是模糊不清。

NVIDIA决定在今年早些时候开源他们的方法，并得到了广泛的赞誉。他们的vid2vid方法的目标是从给定的输入视频学习映射函数，以产生输出视频，该视频以令人难以置信的精度描绘输入视频的内容。

您可以在这里的GitHub上试用他们的PyTorch实现。

强化学习

如果我不得不选择一个我希望看到更多渗透的领域，那就是强化学习。除了我们不定期看到的偶尔头条新闻之外，还没有一个改变游戏规则的突破。我在社区中看到的一般看法是，它太沉重了数学，并且没有真正的行业应用程序可供使用。

虽然这在某种程度上是正确的，但我希望看到明年更多来自RL的实际用例。在我的每月GitHub和Reddit系列中，我倾向于至少保留一个关于RL的存储库或讨论，以至少促进围绕该主题的讨论。这可能是所有研究中出现的下一件大事。

OpenAI已经发布了一个非常有用的工具包，可以让初学者从这个领域开始，我在下面提到过。你也可以看看这个关于这个主题的初学者友好的介绍（这对我来说非常有帮助）。

如果有什么我错过了，很想听听你的想法。

OpenAI在深度强化学习中的应用

如果对RL的研究进展缓慢，那么围绕它的教育材料很少（充其量）。但真实的是，OpenAI已经开放了一些关于这个主题的精彩材料。他们称这个项目为“在Deep RL中旋转”，你可以在这里阅读所有相关内容。

它实际上是RL上非常全面的资源列表，他们试图尽可能简化代码和解释。有很多材料包括RL术语，如何成长为RL研究角色，重要论文列表，一个记录完备的代码存储库，甚至还有一些练习来帮助您入门。

现在不再拖延 - 如果你打算开始使用RL，那么你的时间已经来临！

多巴胺由谷歌

为了加速研究并让社区更多地参与强化学习，Google AI团队拥有开源的Dopamine，这是一个TensorFlow框架，旨在通过使其更灵活和可重复性来创建研究。

您可以在此GitHub存储库中找到整个训练数据以及TensorFlow代码（仅15个Python笔记本！）。这是在受控和灵活的环境中进行简单实验的完美平台。听起来像任何数据科学家的梦想。

2019年强化学习趋势

Xander Steenbrugge是DataHack Summit 2018的发言人，也是ArxivInsights频道的创始人，他非常擅长强化学习。以下是他对RL当前状态的看法以及2019年的预期：

我目前看到RL领域的三个主要问题：
样本复杂性  （代理需要查看/收集以获得的经验数量）
泛化  和转移学习（训练任务A，测试相关任务B）
分层RL  （自动子目标分解）
我相信前两个问题可以通过一组与无监督表示学习相关的类似技术来解决  。目前在RL中，我们正在训练深度神经网络，其使用稀疏奖励信号（例如，Atari游戏的得分或者）以原始输入空间（例如像素）映射到端对端方式的动作（例如，使用反向传播）。机器人掌握的成功）。这里的问题是：
实际上“增长”有用的特征检测器需要很长时间，因为信噪比非常低。RL基本上以随机动作开始，直到幸运地偶然发现奖励，然后需要弄清楚特定奖励是如何实际引起的。进一步的探索要么是硬编码（ε-贪婪的探索），要么是用好奇心驱动的探索等技术来鼓励  。这不是有效的，这导致问题1。
其次，已知这些深度NN架构非常容易过度拟合，而在RL中，我们通常倾向于在训练数据上测试代理 - >在这种范例中实际上鼓励过度拟合。
我非常热衷的一条可能的前进道路是利用无监督的表示学习（自动编码器，VAE，GAN，......）将凌乱的高维输入空间（例如像素）转换为低维“概念”空间。某些理想的属性，例如：
线性，解开，对噪声的鲁棒性，......
一旦你可以将像素映射到这样一个有用的潜在空间，学习突然变得更容易/更快（问题1），并且你也希望在这个空间学到的策略将具有更强的  泛化，  因为上面提到的属性（问题2）
我不是层次结构问题的专家，但上面提到的所有内容也适用于此：在潜在空间中解决复杂的分层任务比在原始输入空间中更容易。

奖励：查看Xander关于克服Deep RL中稀疏奖励的视频（上面提到的第一个挑战）。

由于增加了越来越多的辅助学习任务，增加了稀疏的外在奖励信号（例如好奇心驱动的探索，自动编码器式预训练，解开环境中的因果因素......），样本复杂性将继续提高。这将非常适用于非常稀疏的奖励环境（例如最近关于Montezuma报复的Go-explore结果）
正因为如此，直接在物理世界中的训练系统将变得越来越可行（而不是当前的应用程序，大多数在模拟环境中训练，然后使用域随机化转移到现实世界。）我预测2019将带来第一个真正令人印象深刻的机器人演示只能使用深度学习方法，不能硬编码/人工设计（与目前为止我们见过的大多数演示不同）
继DeepGo在AlphaGo故事中取得重大成功之后（特别是最近的AlphaFold结果），我相信RL将逐步开始提供在学术领域之外创造真实世界价值的实际商业应用程序。这最初仅限于精确模拟器可用于对这些代理进行大规模虚拟培训的应用（例如药物发现，电子芯片架构优化，车辆和封装布线......）
正如已经开始发生的那样（参见此处或此处），RL开发将有一个普遍的转变，即在训练数据上测试代理将不再被视为“允许”。泛化指标将成为核心，就像监督学习方法的情况一样

还有一部分大家自己看吧是关于AI伦理、数据保护方面的，就到这里了，从这里可以看出，AI发展的太快了，我们需要持续的学习啊，加油，自然语言纯理论到此结束，后面我总结一下本人2018的学习，如果后面还在更新基本上就实战方面的。

原始文章地址：请点击