作者:萧瑟
链接:https://www.zhihu.com/question/46485555/answer/119428123
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
链接:https://www.zhihu.com/question/46485555/answer/119428123
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
当前深度学习技术主要是data driven的,即对一个特定任务来说,只要增加训练数据的规模,深度学习模型的表现就可以得到提高。但是发展到今天,这种思路面临很多挑战。主要面临下面几个问题:
- 很多领域(如医疗,教育),很难获取大量的监督数据或者数据的标注成本过高。
- 训练数据规模再大,也有难以覆盖的情况。例如聊天机器人,你不可能穷尽所有可能的答案。而且很多答案,也是随时间变化的(例如明星年龄,配偶)。因此仅仅依靠大规模的训练语料,并不能解决这些问题。
- 通用深度学习模型,直接应用到具体问题,表现(效果,性能,占用资源等)可能不尽如人意。这就要求根据特定的问题和数据,来定制和优化深度学习网络结构。这个是当前研究最多最热的地方。
- 训练的问题。包括网络层数增加带来的梯度衰减,如何更有效的进行大规模并行训练等等。
为了解决上面的问题,当前的研究前沿主要包括以下几个方向:
引入外部知识(如知识图谱,WordNet)
Knowledge-Based Semantic Embedding for Machine Translation
A Neural Knowledge Language Model深度学习与传统方法的结合。
- 人工规则与神经网络的结合
Harnessing Deep Neural Networks with Logic Rules - 贝叶斯与神经网络的结合
Human-level concept learning through probabilistic program induction(论文讲的是用贝叶斯让机器模仿人写字的,但是对深度学习有非常大的启发价值) - 迁移学习与神经网络的结合
- 强化学习与神经网络的结合
Mastering the game of Go with deep neural networks and tree search - 图模型与神经网络的结合
Bidirectional LSTM-CRF Models for Sequence Tagging
A Hierarchical Latent Variable Encoder-Decoder Model for Generating Dialogues
- 人工规则与神经网络的结合
无监督的深度生成模型。
Generative Adversarial Networks- 新的网络结构
Highway Networks
Neural Turing Machines
End-To-End Memory Networks
Deep Residual Learning for Image Recognition
Mollifying Networks - 新的训练方法
Batch Normalization Accelerating Deep Network Training by Reducing Internal Covariate Shift