关于神经元结构的讨论-引言(一)

       传统机器学习和深度学习的不同,相信大家都知道,深度学习无法解释这一痛点,限制了其在很多方面的应用。但是,现在出现了很多对深度学习的原理进行探索的文章。相对现在传统机器学习发展的阶段来说,现阶段的深度学习研究可能还处在婴幼儿时期,相信天才们会一步一步揭开深度学习的面纱。现在可以看到的探索有两方面,一种是对网路结构的[1],一种是对神经元结构的[3 ,4 ]。下面结合nlp,主要介绍以下在神经元结构方面的探索,除了介绍文章外,如果有条件我们也将做一些实验。

       该文计划写三部分,第一部分是介绍深度学习的网络结构方面相关的研究,主要介绍谷歌发表的《wide neural networks of any depth evolve as linear models under gradient descent》[1],中文的介绍可以看[2]。第二部分介绍一下这篇《Understanding BERT Transformer: Attention isn’t all you need》[3],是对bert模型的一种解释,重点放在多头attention机制和语言学特点的联系上。多头attention机制是将词向量进行了切分,反过来可以看作给神经元加入了切分的结构。第三部分介绍on-lstm[4],作者明确的给隐向量加入了层架结构。我们也认为这是一种在神经元结构上的探索。第二、三部分是我的重点,将结合句子向量中的语言学特征讨论,进行相关的实验。

       深度学习的研究更多注重在网络结构的研究上(读书少,大家见笑),我认为网络结构是宏观角度的研究,我们可以把神经元的结构看作神经网络的微观结构,可能从微观角度能揭深度度学习的本质。一些现有的研究,比如dropout、batch nor 、layer nor,就可以看作是微观结构方面的研究。相信会有越来越多的深度模型出现,其中肯定包括很多奇特的神经元结构模型。

参考文献:

【1】Wide Neural Networks of Any Depth Evolve as Linear Models Under Gradient Descent.

【2】https://mp.weixin.qq.com/s/lcgnnXMUO8C3oLUPmxthjQ.

【3】https://medium.com/synapse-dev/understanding-bert-transformer-attention-isnt-all-you-need-5839ebd396db

【4】Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks

错误纠正:

   “ 一些现有的研究,比如dropout、batch nor 、layer nor,就可以看作是微观结构方面的研究。”,dropout随机的失效一定比例的神经元,不涉及神经元结构的调整,不应该看作一种微观结构的模型。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值