深度学习
文章平均质量分 82
lankuohsing
自动化研究生
展开
-
transformer原理及代码实践
文章目录1. transformer的宏观结构解析2. 数据的流动2.1. Encoder部分2.2. Decoder部分3. 代码实现(待补充)参考链接和文献:https://jalammar.github.io/illustrated-transformer/https://blog.csdn.net/qq_28168421/article/details/1203403601. transformer的宏观结构解析transformer的一种典型的seq2seq结构,常用于序列到序列的应用.原创 2022-03-12 12:36:47 · 2560 阅读 · 1 评论 -
pytorch文本任务pipeline
文章目录1. 读取文本数据制作成pytorch专用数据集2. 对句子进行分词得到词库3. 构建DataLoadarhttps://pytorch.org/tutorials/beginner/text_sentiment_ngrams_tutorial.htmlhttps://github.com/lankuohsing/pytorch-study/tree/main/utils/text_pipline1. 读取文本数据制作成pytorch专用数据集以读取CSV数据为例,里面每行的数据格式为:l.原创 2022-03-02 22:53:59 · 1006 阅读 · 0 评论 -
如何衡量两个分布的相似性(更新中)
https://blog.csdn.net/fengdu78/article/details/114325589https://www.cnblogs.com/arkenstone/p/5496761.html原创 2022-01-13 22:43:28 · 4255 阅读 · 0 评论 -
深度学习之GPU设置相关
os.environ[“CUDA_VISIBLE_DEVICES”]=“5,7”使得只有编号为5和7的GPU可见使用horovod时会把5和7重新编号为0和1hvd.local_rank()默认是0也即实际用的是编号为5的GPU原创 2021-09-16 16:06:25 · 342 阅读 · 0 评论 -
量化压缩论文:Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference
文章目录原创 2021-09-12 12:20:27 · 533 阅读 · 0 评论 -
通俗理解误差、偏差、方差以及它们和过拟合、欠拟合之间的关系.
文章目录0. 引言1. 误差、偏差和方差的数学定义2. 偏差与方差的直观理解3. 偏差、方差与欠拟合、过拟合的关系4. 欠拟合、欠拟合的产生原因及解决方案0. 引言作为一名算法工程师,在利用算法模型解决实际问题时,模型的欠拟合、过拟合问题是无论如何都无法回避的。这两个问题的表象相比很多人都知道,但是涉及到它们背后的产生原因、本质以及解决方法,要说清楚还是不容易的。1. 误差、偏差和方差的数学定义误差(error)的概念有两类,一类是数据本身带来的噪声,一般假设服从均值为0的高斯分布,记为ϵ∼N(0.原创 2021-07-11 23:26:43 · 2766 阅读 · 0 评论 -
卷积层参数量和计算量计算公式
文章目录0. 变量定义1. 卷积层的参数量计算2. 卷积操作的计算量2.1. 乘法计算量2.2. 加法计算量参考https://www.cnblogs.com/qinduanyinghua/p/11302618.html0. 变量定义假设输入的特征图(feature map)的shape为[Height, Weight, Channel],对应的字母表示为[Hin,Win,Cin][ H_{in}, W_{in}, C_{in}][Hin,Win,Cin]; 卷积核(kernel)的shape.原创 2021-05-25 23:13:03 · 7247 阅读 · 0 评论 -
神经网络量化压缩学习笔记
文章目录0. 前言1. 量化压缩方法简介2. 量化压缩原理2.1. 定点数与浮点数https://jackwish.net/2019/neural-network-quantization-introduction-chn.htmlhttps://zhuanlan.zhihu.com/p/1496596070. 前言近年来,基于神经网络的深度学习在图像处理、自然语言处理、语音识别等领域取得了显著效果。一般情况下,一个神经网络模型越大(一般指参数量越大),模型的拟合能力更强,准确度越高。这将进一步导.原创 2021-02-15 22:33:26 · 986 阅读 · 0 评论 -
TensorFlow/PyTorch中张量(Tensor)的底层存储方式
文章目录0. 张量(Tensor)基本概念回顾1. tensor在计算机内存中的存储方式0. 张量(Tensor)基本概念回顾张量(Tensor)其实就是多维数组,类似于NumPy里面的np.array。这里的维度,更准确的讲法应该叫阶(rank),这是为了跟向量(vector)的维度区分开的。vector其实就是rank为1的张量,我们说一个vector是n维的其实是说它有n个分量(标量)。而如果张量的维度(阶)是n维的,并不是说它有n个标量分量,而是说在表示这个张量时需要用n个坐标轴。每个轴上都.原创 2021-02-03 00:39:25 · 2091 阅读 · 2 评论 -
从logistic回归到神经网络——理论与实践
1.logistic回归详解2.损失函数的选取2.1.最大化后验概率与极大似然估计3.梯度下降方法求解最优的参数www和bbb3.1.前向传播3.2.反向传播4.示例代码1.logistic回归详解logistic回归模型是用来解决二分类问题的,因此我们将首先在概率的框架下描述什么是分类问题。分类问题的一般描述如下图所示: 图1.1 分类问题的...原创 2018-06-06 11:59:43 · 1586 阅读 · 1 评论 -
pytorch教程之自动求导机制(AUTOGRAD)-从梯度和Jacobian矩阵讲起
文章目录0. Jacobian矩阵参考资料https://pytorch.org/tutorials/beginner/blitz/autograd_tutorial.html#sphx-glr-beginner-blitz-autograd-tutorial-pyhttps://zhuanlan.zhihu.com/p/29923090https://zhuanlan.zhihu.com/p/656095440. Jacobian矩阵在pytorch和TensorFlow中,是不支持tens.原创 2021-01-13 23:48:46 · 1990 阅读 · 2 评论 -
Sequence to sequence入门详解:从RNN, LSTM到Encoder-Decoder, Attention, transformer
文章目录1. 前馈神经网络的缺点2. 循环神经网络RNN2.1. RNN的基本结构与数学定义2.2. 输入输出长度的讨论2.2.1. nx=ny=nn_x=n_y=nnx=ny=n2.2.2. nx=n,ny=1n_x=n,n_y=1nx=n,ny=12.2.3. nx=1,ny=nn_x=1,n_y=nnx=1,ny=n2.2.4. nx=n,ny=mn_x=n,n_y=mnx=n,ny=m,Encoder-Decoder模型3. RNN的复杂变种3.1. GRU(Gated Recur.原创 2020-09-15 22:50:33 · 1889 阅读 · 1 评论