
深度学习
CoreJT
中科院自动化所在读直博生,感兴趣的研究方向:文本分类、情感分析、机器阅读理解与问答系统以及对话系统。
展开
-
深度学习 | (10) 为什么Bert的三个Embedding可以进行相加?
原文地址这个问题已经有很多回答了,但多是数学层面而非业务层面的:embedding 相加和 XXX 等价,但问题是 XXX 这样建模难道就是对的吗?这种解释并不解决“相加后向量的大小和方向就变了,语义不就变了吗?”这个疑惑。模型拿到的是三个向量(word /token embedding,position embedding,segment embedding)的和,它怎么知道原来的向量是哪三个...转载 2020-03-14 22:32:39 · 4622 阅读 · 1 评论 -
深度学习 | (9) Transformer和LSTM对比的设想?
原文地址现在的想法是transformer模型建立依赖关系的能力可能是依旧比较差。Transformer 长程依赖的捕获能力是比 RNN 类结构差的。这点在最近 Transformer-XL [1] 的文章中有体现。...转载 2020-03-14 22:11:56 · 5942 阅读 · 0 评论 -
深度学习 | (8) GNN、NAS、Meta-Learning哪个更可能带来深度学习的突破?
原文地址GNN:图神经网络NAS(Neural Architecture Search):网络结构搜索Meta-Learning: 元学习图神经网络主要还是能拓宽深度学习的应用范围吧(深度学习在图结构数据上的应用),毕竟图结构的问题非常多,但拓宽范围算不上什么突破吧,而且图神经网络现在并没有什么killer application,而且survey paper比paper都多,感觉没啥...转载 2020-03-14 21:25:04 · 1342 阅读 · 0 评论 -
深度学习 | (7) 有了Transformer框架后是不是RNN完全可以废弃了?
原文地址有了Transformer框架后RNN完全可以废弃,这个观点荒谬至极。举一个例子:除了个别探索,所有seq2seq的decoder都是一种rnn结构,不管是基于cnn的还是transformer的。说实话,我甚至觉得将decoder部分直接换成lstm等结构效果会更好。此外,大家都说transformer快而rnn慢,君不见transformer的效率是O(n^2)而rnn和cnn...转载 2020-03-10 10:32:22 · 1198 阅读 · 0 评论 -
深度学习 | (6) 关于神经网络参数初始化为全0的思考
原文地址为什么神经网络参数不能全部初始化为全0?最近试了一个小实验,发现当神经网络参数全部初始化为全0的时候(这样最省力嘛),效果并不好,后来和请教了ybb并且网上查阅了一些资料,记录一下自己的笔记和总结,欢迎大家指错交流~假设我们现在需要初始化的神经网络如下所示:我们初始化权值为:其中W1代表输入层到隐藏层的权值矩阵,W2代表隐藏层到输出层的权值矩阵。假设网络的输入为[x1,x2...转载 2020-03-07 18:40:02 · 5951 阅读 · 3 评论 -
深度学习 | (5) 2分类、多分类问题评价指标以及在sklearn中的使用
目录1. 二分类评价指标2. 多分类评价指标3. 总结1. 二分类评价指标常用的二分类评价指标包括准确率、精确率、召回率、F1-score、AUC、ROC、P-R曲线、MCC等混淆矩阵2分类问题的混淆矩阵是2*2的,通常以关注的类为正类,另一个类为负类,分类器在数据集上的预测或者正确或者不正确,我们有4种情况:1)TP:True Positive,实际为正类并预测为正...原创 2019-12-14 12:24:37 · 18642 阅读 · 3 评论 -
深度学习 | (4) 分类问题的Label为啥是one-hot?
在上两次博客中,我们定义分类问题的损失函数,其中用到的Label都是one-hot形式,其实真不一定必须用one-hot,不过用one-hot的主要因素包括(在PyTorch中我们不用显式地自己把标签(一维列表或一维数组形式的整数索引)转换为one-hot形式,函数内部会自动转换):one hot的形式无法比较大小。如果你预测的label是苹果,雪梨,香蕉,草莓这四个,显然他们不直接构成...原创 2019-12-12 09:40:07 · 3554 阅读 · 0 评论 -
深度学习 | (3) Pytorch中的分类问题损失函数
前言:pytorch中有几个非常容易搞混淆的函数,它们是softmax和log_sof...转载 2019-12-11 20:40:15 · 13379 阅读 · 1 评论 -
深度学习 | (2) 二分类、多分类与多标签分类的区别与损失函数
目录1. 基本概念2. 2分类问题2. 多分类问题3. 多标签分类问题参考文章1. 基本概念 2分类 分类任务有两个类别,每个样本属于两个类别中的一个,标签0/1.比如:训练一个图像分类器,判断一张输入图片是否是猫。多分类分类任务有n个类别,每个样本属于n个类别中的一个,每个样本有且只有一个标签。比如:新闻文本分类,每个样本/新闻只有一个主题标签,如:政治、...原创 2019-12-09 21:27:57 · 12056 阅读 · 1 评论 -
深度学习 | (1) 卷积神经网络Pooling操作的反向传播
版权声明:本文为博主原创文章,遵循传统的神经网络无论是隐层还是激活函数的导数都是可导,可以直接计算出...转载 2019-11-23 14:07:05 · 701 阅读 · 0 评论