机器学习和深度学习领域最近的一些研究小结（GAN、AutoML、机器翻译）

本文链接：https://blog.csdn.net/weixin_43257951/article/details/83786691

内容来自：https://www.jiqizhixin.com/categories/theory
机器之心是国内的一个科技媒体平台，主要关注人工智能领域，会整理一些相关领域的新论文或研究成果，以及介绍一些实验方法和新工具。我浏览了网站内容之后，选择了一些感兴趣的点并查阅了一些资料。

1、最近有一些关于一种非监督神经网络——生成对抗网络（GAN）的研究。GAN是2014年提出的一种博弈式的模型，包含生成模型和判别模型两部分，生成模型根据输入样本的分布构造新的样本，而判别模型则判断某个样本是输入样本还是生成模型构造的样本。生成模型和判别模型交替训练，生成模型的训练目标是尽量生成和输入样本分布一致的样本，判别模型的训练目标是尽量准确判断某个样本是输入样本还是生成模型构造的样本。直到两个模型都不能提高后，训练结束。GAN的应用主要在于生成，例如生成更多的图片样本、在自动驾驶领域生成驾驶场景、生成对话文本、基于文本描述生成图像等。

2、近期一些研究关注了神经网络自动调参和架构搜索，主要使用的技术是强化学习和进化算法。强化学习是在训练的过程中，通过尝试进行学习，尝试出错就扣分，正确就奖励，由此训练得到在各个状态环境当中最好的决策。在神经网络架构搜索任务中，将架构的生成看成是一个决策过程，奖励项是通过一个测试集上的效果预测函数来获得。进化算法是一大类算法，大概的框架也基本类似，先随机生成一个种群（N 组解），开始循环以下几个步骤：选择、交叉、变异，直到满足最终条件。目前一些能实现神经网络自动调参和架构搜索的平台有谷歌的AutoML，百度的 EasyDL，探智立方的DarwinML 1.0等。
自动机器学习：
https://www.jiqizhixin.com/articles/2018-09-10-14
https://www.jiqizhixin.com/articles/2018-10-31-21
关于调参方法：
https://www.jiqizhixin.com/articles/2018-10-31-24

3、机器翻译也是一个深度学习的研究热点。目前运用神经网络进行机器翻译（统称NMT）的主流框架是2013年Nal Kalchbrenne等研究者提出的一种端到端编码器-解码器结构：它使用卷积神经网络（CNN）将给定的一段源文本编码成一个连续的向量，然后再使用循环神经网络（RNN）作为解码器将该状态向量转换成目标语言。随后，自Bahdanau等研究者在2014年提出基于注意力的NMT模型后，基于编码器解码器结构的NMT模型差不多都会加上注意力机制。2017年谷歌发表论文Attention Is All Your Need进一步形式化表达了注意力机制，并提出了不使用CNN和RNN，只使用Multi-head Attention的翻译模型Transformer。搜狗搜索就基于Transformer模型建立了用于信息检索的IR-Transformer。然而最近华盛顿大学的研究者发表论文You May Not NeedAttention，提出了一个移除注意力机制的极简NMT模型。除了自然语言翻译外，程序翻译也是一个新的研究方向。UC伯克利的陈新云等人提出了一个树到树的程序翻译神经网络（2018），在Java到C#的翻译任务上显示出了比其他程序翻译模型更好的性能。