neural network

26 篇文章 0 订阅

1.self-attention 

   理解:最终是要输出,假设按照输入长度输出,就要在每个位置有对所有输入有个softmax-weigth的累加。

    softmax-weight 来自于  输入embedding 做k,输入embedding做v,矩阵转置相乘得到一个相同尺寸的矩阵,含义是每个位置上,所有位置对此位置的权重值,sofamax后即得到0-1之间的权重值w。然后 讲原始embdding作为v,w*v即可得到输出。

2.topk-pooling

 对pooling以后的值根据值大小取topk组合成新矩阵,相当于在某一维度降维操作

3.中长文本分类,  encode+pooling+fcl-layer认为是个基线操作  

   优化方面:加入 word-encode char-encode ,  pooling层做 concat(topk-pooling,attention),

4.深层神经网络,多达5+层,resnet,防止梯度消失;

   网络结构内部参数值可视化,发现是否已经梯度消失;

   

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值