大白兔奶糖yyds-CSDN博客

原创 20230328组会总结

为了解决大核卷积局部信息丢失问题，提出了轴向卷积增大卷积核，采用了具有动态稀疏结构的，平行的长方形卷积核。（1）提出了LWA，根据深度图的准确程度，动态确定每层的具体融合策略。（2）TSA用于提取更广阔的空间上下文特征，解决了D不对齐的问题。提供了一个轻量型的结构，倒残差结构当中增加了注意力。添加了语言描述信息进行对比学习。增加了结构图和细节图两个输出。空间轴与注意力的融合。

2023-04-02 23:41:32 188

系列文章目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录系列文章目录前言一、pandas是什么？二、使用步骤 1.引入库 2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的

2022-05-23 16:19:55 1316

原创 Transformer

（1）整体架构编码器和解码器都有n层transformer块，相对应的是seq2seq中的RNN。编码器最后一层的输出作为解码器的输入。（2）实现细节多头注意力：自注意力kqv都是一样的，但是希望模型提取不同的特征，在输入注意力前，对kqv分组生成不同的权重，即加入全连接层。最后每一组kqv加入注意力，最后在head维度拼接。数学形式在解码的时候，在预测时不应该考虑后边的信息，解决方法就是加入有效数据列长度。基于位置的前馈神经网络：打平方式不同，因为n是不同...

2021-12-01 18:18:53 1185

原创自注意力机制和位置编码

11

2021-11-30 22:17:10 1045

原创使用注意力机制的seq2seq

（1）动机：机器翻译中，每个生成词可能相关于源句子中不同的词。编码器最后隐藏层包含了前边的信息，但是进行某一步时不一定需要前边全部信息，可以用注意力关注在源句子中对应的部分。（2）加入注意力解码器：当前的还未预测，所以根据上一次预测的提取到跟上一步预测附近相关的。（3）总结...

2021-11-30 12:42:50 558

原创注意力机制

一、原理（1）心理学角度：人类根据随意线索和不随意线索选择注意点，如下图所示，人看一眼注意到红色的杯子（不随意），但在思考只有，想要读书所以关注到书（随意）。（2）卷积、全连接、池化都只考虑不随意线索。注意力机制则是显示的考虑随意线索。随意线索被称为查询（query），每个输入是一个值（value）和随意线索（key）的对，通过注意力汇聚来有偏向选择某些输入。（3）非参注意力机制一个新点x与全局任意点的距离，选择与x近的一些点做相关运算。K选用高斯，（4）深...

2021-11-29 20:30:57 2018

原创 RNN：序列到序列学习和束搜索

一、序列到序列学习（seq2seq）使用两个循环神经网络来设计编码器和解码器，并将其应用于机器翻译的序列到序列（1）网络结构编码器是一个RNN，读入输入的句子，可以是双向的，输出用作解码器的初始隐藏状态。解码器是另一个RNN，训练时用目标句子输入，推理时用推理的结果（2）评估（3）总结二、束搜索其中L是最终候选序列的长度...

2021-11-29 10:59:27 411

原创机器翻译和编码器-解码器结构

一、机器翻译首先，语言模型是使用循环神经网络来设计的，而语言模型正是自然语言处理的关键。其次，机器翻译是最成功的基准测试，而机器翻译正是将输入序列转换成输出序列的序列转换模型（sequence transduction）的核心问题。机器翻译（machine translation）指的是将序列从一种语言自动翻译成另一种语言。总结：机器翻译指的是将文本序列从一种语言自动翻译成另一种语言。使用单词级词元化时的词汇量，将明显大于使用字符级词元化时的词汇量。为了缓解这一问题，我们可以将低频词..

2021-11-16 22:13:08 1962

原创深层循环神经网络和双向循环神经网络

一、深层循环神经网络将多层循环神经网络堆叠在一起，通过对几个简单层的组合，产生了一个灵活的机制。特别是，数据可能与不同层的堆叠有关。数学公式二、双向循环神经网络数学公式操作：顺序处理序列得到Ht，然后将序列反转再处理后再次反转得到Ht<-。...

2021-11-15 23:16:45 386

原创长短期记忆网络LSTM

长短期记忆网络引入了存储单元（memory cell），或简称为单元（cell）。有些文献认为存储单元是隐藏状态的一种特殊类型，它们与隐藏状态具有相同的形状，其设计目的是用于记录附加的信息。为了控制存储单元,需要三门(1)忘记门（重置单元的内容）、输入门（决定何时将数据读入单元）、输出门（从单元中读出条目）（2）候选记忆单元（3）记忆单元（4）隐藏状态...

2021-11-15 19:51:16 574

原创门控循环单元GRU

一、动机：关注一个序列并不是每个观察值都是同等重要，只需要记住相关的观察（这需要能关注的机制和能遗忘的机制）。二、门控隐藏状态：普通的循环神经网络和门控循环单元之间的关键区别在于后者支持隐藏状态的门控（或者说选通）。这意味着有专门的机制来确定应该何时更新隐藏状态，以及应该何时重置隐藏状态。这些机制是可学习的，并且能够解决了上面列出的问题。（1）重置门和更新门构造：输入是由当前时间步的输入和前一时间步的隐藏状态给出。两个门的输出是由使用 sigmoid 激活函数的两个全连接层给出。...

2021-11-15 12:06:08 1391

原创循环神经网络

（1）网络结构：基于潜变量自回归模型，每个时间步输出基于当前xt和前一时刻ht-1。（2）困惑度：度量语言模型的质量（3）梯度裁剪（4）零基础实现# %matplotlib inlineimport mathimport torchfrom torch import nnfrom torch.nn import functional as Ffrom d2l import torch as d2lbatch_size, num_steps = 32, 3...

2021-11-14 20:48:36 616

原创语言模型与数据集

（1）语言模型：给定文本序列x1,...,xT,其目的是估计联合概率p(x1,...,xT)，其应用包括做预训练模型、生成文本（给定几个词不断使用xt~p(xt|x1,...,xt-1)生成后续文本）和判断多个序列中那个更常见（2）使用计数建模：N元语法（3）读取长序列数据：当序列变得太长而不能被模型一次性全部处理时，可以将这些平均分成n个时间步的小序列，然后引入偏移，保证可以采集到所有情况的数据。随机采样：在随机采样中，每个样本都是在原始的长序列上任意捕获的子序列。在迭代过程中，来自两个相邻的

2021-11-14 20:36:24 267

原创 RNN中文本预处理

（1）读取数据集，将数据集读取到由多条文本行组成的列表中，其中每条文本行都是一个字符串。为简单起见，在这里忽略了标点符号和字母大写。d2l.DATA_HUB['time_machine'] = (d2l.DATA_URL + 'timemachine.txt', '090b5e7e70c295757f55df93cb0a180b9691891a')def read_time_machine(): #@save """Loa

2021-11-14 20:16:49 539

原创序列模型介绍

（1）序列数据：具有时许结构的数据，例如音乐、文本等（2）统计工具：在t时间观察到xt，那么得到T个不独立的随机变量（x1,...,xT）~p(x)，使用条件概率展开p(a,b) = p(a)p(b|a) = p(b)p(a|b)，所以p(x)(3)序列模型：自回归模型（使用自身过去数据预测未来）A-马尔科夫假设，假设当前数据仅和个过去数据点相关B-潜变量，引入ht表示过去信息ht = f(x1,...,xt)则xt = p(xt|ht)...

2021-11-14 18:12:33 756

原创第七周作业：注意力机制Part2

1.BAM: Bottleneck Attention Module核心思想：沿着通道和空间两条不同的路径推断出attention map，该模块只作用在卷积块之间，所以参数优于SENet。网络结构：由两条注意力通道，一条路径是类似于SEnet的结构，先对F全局池化，得到一个的通道向量，然后在使用一个多层感知机（MLP，本次由两层全连接层组成），最后加入批处理规范化层（BN）以调整空间分支输出的比例。计算公式如下：另一条路径是空间注意力Fs，采用扩张卷积来高效地扩大感受野。将特征F∈...

2021-10-24 23:03:12 487

原创阅读EPSANet

在DNN中嵌入注意力模块可以有效提高性能，但是也增大了模型复杂度，于是作者提出了一种新的轻量级和有效的注意模块PSA。1.PSA模块结构首先使用自定义的SPC模块获得通道方向上的多尺度特征图，然后利用SEWeight模块提取不同尺度特征地图的注意力，得到通道方向的注意力向量，再通过使用Softmax重新校准通道方向的注意向量，获得多尺度通道的重新校准权重。最后应用于重新校准的重量和相应的特征图，以得到多尺度特征信息更丰富的细化特征图。2.SPC模块以多分支的方式提取输入特征图的空..

2021-10-24 20:06:05 2881

原创阅读Improving Convolutional Networks with Self-Calibrated Convolutions

本论文在研究CNN性能上不在关注模型结构，而是在考虑改进CNN的基本卷积特征变换过程，即自校准卷积。1.结构给定一组形状为（C，C，kh，kw）的滤波器组K，其中kh和kw分别是空间高度和宽度，首先将其统一划分为四个部分，每个部分负责不同的功能。然后将输入X均匀地分成两个部分{X1，X2}，然后将每个部分发送到一个特殊的路径中，用于收集不同类型的上下文信息。在第一种途径中，我们利用{K1，K2，K3}对X1执行自校准操作，得到Y1。在第二个路径中，我们执行一个简单的卷积运算：Y2=F1（X2..

2021-10-24 10:42:26 2055

原创阅读ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks

前面学习了SENet为代表的通道注意力机制来提高网络性能，但是该网络模型涉及降维以控制模型复杂性。但是作者实验中显示维度减少对通道注意预测产生了副作用，因为其将通道特征投影到低维空间，然后将其映射回来，使通道与其权重之间的对应关系成为间接的，并且捕获所有通道之间的依赖关系是低效且不必要的。因此作者设计了ECA模块，该模块避免了维度缩减，并以有效的方式捕获跨通道交互。1.模块结构:首先自适应地确定核大小，然后执行1D卷积，然后执行Sigmoid函数。最后作用到原图上。（1）避免降维文中将SE.

2021-10-21 20:40:43 285

原创阅读论文：Dual Attention Network for Scene Segmentation

为了解决场景分割任务，本文提出一种双注意网络（DANet）用来适应地将局部特征与其全局依赖性结合起来，在扩展FCN的基础上增加了两种类型的注意模块，分别在空间和通道维度上对语义依赖性进行建模。位置注意模块通过所有位置的特征加权和，选择性地聚合每个位置的特征。相似的特征会相互关联，而不考虑它们之间的距离。同时，通道注意模块通过整合所有通道图之间的相关特征，选择性地强调相互依赖的通道图。我们将两个注意模块的输出相加，以进一步改进特征表示，从而获得更精确的分割结果。1.模型结构（1）整体框架：首先通过扩展

2021-10-20 23:34:50 1070

m0_61407792的博客

原创 20230328组会总结

原创 20230210组会论文学习总结

原创基于深度学习的高光谱解混的实用方法和众多方法的比较