2018年AI和ML(NLP)技术概述和2019年趋势


介绍:

过去几年一直是人工智能爱好者和机器学习专业人士的梦想。这些技术已经从一个小众市场发展成为主流,并且影响着上亿人的生活。各国现在都有专门的人工智能部门和预算,以确保他们在这场竞赛中发挥作用。

对于数据科学专业人士来说也是如此。几年前,如果你知道一些工具和技术,你会觉得你可以走在技术的前端。不了!在这个领域发生了太多的事情,要跟上它的步伐,有时会让人感到难以置信。

人工智能领域发展了什么?突破是什么?2018年发生了什么,2019年会发生什么?阅读这篇文章了解!

PS: 正如任何预测一样,以下是我的看法,可能会有很多错误,欢迎大家在留言处和我一起讨论学习,一起进步!

我从以下领域介绍人工智能发展趋势:

1、自然语言处理(NLP)

2、计算机视觉(CV)

3、一些工具和算法库

4、强化学习 (RL)

5、人工智能朝着道德人工智能的方向发展

在本文中,我将首先介绍自然语言处理的相关技术

 

自然语言处理(NLP)

让机器解析单词和句子一直就像做梦一样。语言中有太多的细微差别和方面,即使是人类有时也难以掌握。但2018年确实是NLP的分水岭。

我们看到了一个又一个非凡的突破——ULMFiT、ELMO、OpenAI的Transformer和谷歌的BERT等等。成功地将迁移学习(能够将预先训练的模型应用于数据的艺术)应用于NLP任务,为潜在的无限应用打开了大门。让我们更详细地看看这些关键的发展。

ULMFiT

由Sebastian Ruder 和 fast.ai 的Jeremy Howard 设计的ULMFiT是今年第一个利用NLP迁移学习的框架。关于ULMFiT以及我们将很快看到的后续框架,最好的部分是什么?你不需要从头开始训练模型!这些研究人员已经为你做了艰苦的工作,把他们的知识应用到你自己的项目中。在六个文本分类任务中,ULMFiT的表现优于最先进的方法。

如果你对ULMFiT感兴趣,可以阅读Prateek Joshi撰写的关于如何开始使用ULMFiT解决任何文本分类问题的优秀教程。

链接地址为:https://www.analyticsvidhya.com/blog/2018/11/tutorial-text-classification-ulmfit-fastai-library/

 

ELMo

想猜猜ELMo代表什么吗?它是语言模型嵌入的缩写。很有创造力,不是吗? ELMo一发布就吸引了ML社区的注意。ELMo使用语言模型来获取每个单词的嵌入,同时还考虑该单词在句子或段落中的上下文。语境是NLP的一个非常重要的方面,大多数人以前都没有掌握。ELMo使用双向LSTMs创建嵌入。和ULMFiT一样,ELMo显著提高了各种NLP任务的性能,比如情绪分析和问题回答。不愧是在NAACL中获得了Best paper。

论文地址:https://aclweb.org/anthology/N18-1202

如果您对它感兴趣,可以参考以下代码:

(1)https://allennlp.org/elmo

(2)https://blog.csdn.net/jeryjeryjery/article/details/80839291?utm_source=blogxgwz0

Google’s BERT

不少专家认为,BERT的发布标志着NLP进入了一个新的时代。继ULMFiT 和ELMo之后,BERT 的表现真的在竞争中脱颖而出。正如最初的论文所述,BERT 在概念上简单,在经验上强大。简单的说,它是Transformers的双向编码器表示。

论文地址:https://arxiv.org/abs/1810.04805

BERT在11项NLP任务中获得了最先进的结果,看看他们在SQuAD 上的成绩

SQuAD v1.1    Leaderboard (Oct 8th 2018)

Test EM

Test F1

1st Place Ensemble – BERT

87.4

93.2

2nd Place Ensemble – nlnet

86.0

91.7

1st Place Single Model – BERT

85.1

91.8

2nd Place Single Model – nlnet

83.5

90.1

 

如果想使用它做NLP任务,你可以使用PyTorch实现或谷歌的TensorFlow代码在自己的机器上尝试和复现结果。

PyTorch版本的github:https://github.com/huggingface/pytorch-pretrained-BERT

Tensorflow版本的github: https://github.com/google-research/bert

另外,有位大神也做了一个BERT封装版本,几行代码就可以得到你想的语境词向量:

Github地址:https://github.com/hanxiao/bert-as-service

 

Facebook的PyText

Google 公开了这么强大的工具,Facebook怎么能置身一外呢?他们已经开源了自己的深度学习NLP框架PyText。它是近几周早些时候发布的,但早期的评论是非常有希望的。根据FB发表的研究,PyText使得会话模型的准确性提高了10%,并且减少了训练时间。

实际上,PyText是Facebook自己的一些产品的幕后推手,比如FB Messenger。因此,从事这方面的工作为您自己的投资组合增加了一些实际的价值(除了您显然将获得的宝贵知识之外)。

Github地址:https://github.com/facebookresearch/pytext

谷歌的Duplex

因为这是一个谷歌产品,所以他们将其背后的代码开源的可能性很小。但哇!这是一个非常棒的音频处理应用程序。当然,这会引发许多道德和隐私问题,但这是本文后面的讨论。现在,只要陶醉于ML近年来取得的进步就可以了。

 

NLP在2019年的发展方向:

 

这里引用一下 Sebastian Ruder 大佬的话,他提供了NLP在2019年的发展方向

(1)经过预先训练的语言模型嵌入将变得无处不在;很少有最先进的模型不使用它们。

(2)我们将看到可以对特定信息进行编码的预先训练的表示,这是对语言模型嵌入的补充。我们将能够根据任务的需求组合不同类型的预训练表示。

(3)我们将看到更多关于多语言应用程序和跨语言模型的工作。特别是在跨语言单词嵌入的基础上,我们将看到经过深度训练的跨语言表示的出现。

原文是:

  1. Pretrained language model  embeddings will become ubiquitous; it will be rare to have   a state-of-the-art model that is not using them

  2. We’ll see pretrained representations that can encode specialized informationwhich is complementary to  language model embeddings. We will be able to combine different types of  pretrained representations depending on the requirements of the task

  3. We’ll see more work on multilingual  applications and cross-lingual models. In particular, building      on cross-lingual word embeddings, we will see the emergence of deep  pretrained cross-lingual representations

    推荐阅读

    Recommended reading

    “达观杯”挑战赛,第四名解决方案

    文本分类之逻辑回归

    关于我们

    AI算法之心是一个介绍python、pyspark、机器学习、自然语言处理、深度学习、算法竞赛的平台。不管你是刚入门的小白,还是资深的算法大佬,欢迎扫一扫下方的二维码与我们在AI的领域中一起学习成长!

    喜欢我就给我好看吧

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值