深度学习【DL】
文章平均质量分 73
土豆洋芋山药蛋
理性的生存,诗意的栖居。
展开
-
Transformer常见坑与注意事项
Transformer Mask进行Attention的时候进行mask分为2种:第一种:进行self attention的时候使用Encoder:padding maskDecoder:下三角的mask 和padding的mask进行与运算第二种:进行Encoder-Decoder的时候使用使用的是src_mask的padding mask,因为enc_output作为key和value,不要query关注到哪些key偷答案的常见方式和解决办法1、 decode的inpu原创 2021-04-17 12:17:32 · 818 阅读 · 1 评论 -
常见神经网络结构拓扑图
神经网络的结构呈指数型增长的趋势,下图展示了多部分神经网络经典的拓扑结构。P --> FF : 增加了一层隐藏层,所有节点为全连接FF --> RBF : 使用径向基函数(Radical Basis Function,RBF)作为激活函数,而不是逻辑函数。这使得神经网络可以处理连续的值。FF --> DFF : 使用了多层隐藏层,开启了深度学习的纪元。DFF --> RNN : 在神经网络中传递状态等信息,适用于上下文非常重要的情况。例如当过去的迭代或样本的决策会影响原创 2021-03-19 11:42:14 · 6365 阅读 · 0 评论 -
使用tf.data 加载文件夹下的图片集合并分类
Tensorflow原始教程链接在官网:https://tensorflow.google.cn/tutorials/load_data/images简化版:https://colab.research.google.com/drive/146IoL0nVN7HOA3sUJ08zAGbngmwTArDp?usp=sharing但原始教程中比较繁琐,对于想要直接使用的情况的话,本文将如下要点提炼出来。1、数据假设你有如下形式的数据:每一个类别的名称就是文件夹名称,每个文件夹下面放置该类的图片。原创 2020-06-16 21:17:01 · 1396 阅读 · 0 评论 -
深度学习中优化算法概览
一、发展背景及基本框架梯度下降是目前神经网络中使用最为广泛的优化算法之一。为了弥补朴素梯度下降的种种缺陷,研究者们发明了一系列变种算法,从最初的 SGD (随机梯度下降) 逐步演进到 NAdam。然而,许多学术界最为前沿的文章中,都并没有一味使用 Adam/NAdam 等公认“好用”的自适应算法,很多甚至还选择了最为初级的 SGD 或者 SGD with Momentum 等。深度学习优化算法...原创 2018-12-28 11:37:04 · 809 阅读 · 0 评论 -
【手撕】神经网络反向传播
神经网络前向传播一般用于搭建整个神经网络的结构框架,形成整个网络的逻辑通路。反向传播用于更新每层之间的权重,减少损失,进而提升预测准确度。下面是一个神经网络的结构图:第一层是输入层,包含两个神经元i1,i2,和截距项b1;第二层是隐含层,包含两个神经元h1,h2和截距项b2,第三层是输出o1,o2,每条线上标的wi是层与层之间连接的权重,激活函数我们默认为sigmoid函数。激活函数的作...原创 2018-12-31 22:33:53 · 1863 阅读 · 4 评论 -
TensorFlow的名字来源?矩阵与张量的区别?
TensorFlow为啥叫TensorFlow?什么是Tensor?它和矩阵有什么区别和联系?为什么不能叫MatrixFlow?一、什么是Tensor?数学家眼中的Tensor和物理学家眼中的Tensor实在是把我看懵了,接下来就看看没有复杂公式版的,且用于非数学及物理方面的Tensor,或许以后有机会再做一篇Tensor的详细数学定义和解释。Tensor指张量,是对矢量和矩阵向潜在的更...原创 2019-10-11 16:37:01 · 1427 阅读 · 0 评论