首先,讨论一下Deep Learning的一些起源文章,在2006年以前,深度的神经网络一直没有很好地训练方法,有一些问题(比如前文所说的“梯度消亡”的问题),结果不好。2006年,发了3篇重要的初创文章,改变了这一局面,并开始了Deep Learning这个领域的大发展。这3篇文章是:
Hinton,G. E., Osindero, S. and Teh, Y.,Afast learning algorithm for deep belief nets.Neural Computation 18:1527-1554, 2006
Yoshua Bengio, Pascal Lamblin, Dan Popovici and HugoLarochelle,Greedy LayerWise Training of DeepNetworks, in J. Platt et al. (Eds), Advances in Neural Information Processing Systems 19 (NIPS 2006), pp. 153-160, MIT Press, 2007
Marc’Aurelio Ranzato, Christopher Poultney, Sumit Chopra and YannLeCun Efficient Learning of SparseRepresentations with an Energy-Based Model, in J. Platt et al. (Eds), Advances in Neural InformationProcessing Systems (NIPS 2006), MIT Press, 2007
(Google上搜蓝色标题的3篇paper可以查到原文。)
首先被研究出来的是DBN(DeepBelief Networks)模型(基于RBM模型),这是Hinton开创的,就是上面第1篇论文。然后Bengio详细分析了DBN,并提出了一种训练效率比较DBN要高,更加generalization,结果与DBN近似的模型:auto-encoders,就是上面第2篇论文。然后YannLeCun等人进一步提出Sparse auto-encoders 模型,就是上面第3篇论文。我觉得分层训练,Pretraining是整个技术的核心突破。
另外,Bengio在2003年发表了一篇论文“ANeural Probabilistic Language Model”,提出了一种基于神经网络的语言模型用于NLP(自然语言处理),这是很重要的论文,后面被NLP领域广泛引用,包括Google的word2vec