m0_53675977-CSDN博客

原创谷歌重塑Transformer：无限记忆力，无限长输入，登上Nature

在DeepMind推出新设计MoD大幅提升Transformer效率之后，谷歌又再次进行了重大改进！与之前发表在Nature子刊上的life2vec不同，谷歌的新研究成果Infini-attention机制（无限注意力）将内存压缩引入了传统注意力机制，并在单个Transformer块中构建了掩码局部注意力和长期线性注意力机制。这一创新使得Transformer架构的大模型能够在有限的计算资源下处理无限长的输入，在内存使用上实现了114倍的压缩比。

2024-06-14 20:28:26 432

原创基于Mamba的遥感图像处理引爆顶会！

对比传统方法，基于Mamba的在计算效率和分析精度方面遥遥领先，具体来说，在融合高分辨率的空间图像和低分辨率的光谱图像获取综合信息方面，Mamba可以在降维、去噪、特征提取和大规模数据集处理等方面，Mamba通过优化计算资源使用，本文分享，代码已开源，论文可参考创新点做了简单分析，具体工作细节可阅读原文。

2024-05-19 22:41:56 413

原创 CNN与LSTM结合，实现更准预测、更快效率、更高性能！

通过结合CNN和LSTM的双向卷积神经网络长短期记忆（CNN-LSTM）架构，该研究提出了一种创新的预测股票价格的方法。因此，LSTM结合CNN也是深度学习的一个热门研究方向，在学术界与工业界都有广泛应用。作者提出了一个轻量级、参数优化和计算效率高的设计架构，该方法在WLASL数据集上进行了评估，取得了84.65%的分类准确率，相对于其他最先进的方法有2%到3%的改进。本文整理了15种LSTM结合CNN的创新方案，包括引入注意力机制的策略，并简单提炼了可参考的方法以及创新点，希望能给各位的论文添砖加瓦。

2024-05-19 22:26:35 756

原创 Code of Transformer

【代码】Code of Transformer。

2024-04-14 23:39:23 350 1

原创模型评估指标

在我们学习机器学习以及深度学习，甚至在计算机视觉领域，我们不可避免的要利用一些指标评价模型，在本小节中，我们介绍了模型相关评价指标，经过本节的学习，我们将会学习到：模型常用的相关评价指标。

2024-03-31 23:26:13 613 1

原创 sklearn 笔记

a=0#归一化scaler=MinMaxScaler([5,10])#类实例化print(a)

2024-03-31 22:27:44 866 1

原创图解transformer中的自注意力机制

注意力机制（attention mechanism）是Transformer模型中的重要组成部分。Transformer是一种基于自注意力机制（self-attention）的神经网络模型，广泛应用于自然语言处理任务，如机器翻译、文本生成和语言模型等。本文介绍的自注意力机制是Transformer模型的基础，在此基础之上衍生发展出了各种不同的更加高效的注意力机制，所以深入了解自注意力机制，将能够更好地理解Transformer模型的设计原理和工作机制，以及如何在具体的各种任务中应用和调整模型。

2023-06-22 20:15:00 189 1

原创人工智能十大基础算法

事实上，人工智能已经存在于我们生活中很久了。但对很多人来讲，人工智能还是一个较为“高深”的技术，。人工智能领域中就流传着10大算法，它们的原理浅显，很早就被发现、应用，甚至你在中学时就学过，在生活中也都极为常见。

2023-06-22 13:02:03 1669 2

原创 retinanet代码

【代码】retinanet代码。

2023-06-02 10:46:34 436

原创 MMCV注册机制

除了直接定义配置变量之外，Config还支持解析预定义变量，其格式如下 { { v a r } } \{\{ var \}\} {{var}}。{ { f i l e D i r n a m e } } \{\{ \mathrm{fileDirname} \}\} {{fileDirname}} - 当前被打开的配置文件所在目录。

2023-05-20 17:08:20 214

原创 YOLO v3模型详细解读

YOLO v3（《Yolov3:An incremental improvement》）是Joseph Redmon大神于2018年发表的一篇单阶段目标检测论文，这也是作者关于yolo系列的最后一篇论文。虽然yolo v3模型于2018年提出，yolo v3在yolo系列中是一个较为成熟的模型，在工业界也普遍使用，因此对yolo v3 做研究是有着重要意义的。

2023-04-27 13:18:47 1677 1

原创 LN和BN对比

的确，对于神经网络的各层输出，在经过了层内操作后，各层输出分布就会与对应的输入信号分布不同，而且差异会随着网络深度增大而加大了，但每一层所指向的Label仍然是不变的。这是通过训练数据获得的模型能够在测试集上获得好的效果的一个基本保障。2、在训练的时候，是分批量进行填入模型的，但是在预测的时候，如果只有一个样本或者很少量的样本来做inference，这个时候用BN显然偏差很大，例如在线学习场景。3、RNN是一个动态的网络，也就是size是变化的，可大可小，造成多样本维度都没法对齐，所以不适合用BN。

2023-04-01 11:02:34 460

转载常用损失函数汇总

神经网络的反向传播是逐层对函数偏导相乘，因此当神经网络层数非常深的时候，最后一层产生的偏差（网络输出和标签之间的偏差）因为乘了很多的小于1的数而越来越小，最终就会变为0，从而导致层数比较浅的权重w没有更新，即梯度消失。第二，对于深层网络，sigmoid函数反向传播时，很容易就会出现梯度消失的情况（在sigmoid接近饱和区时，变换太缓慢，导数趋于0），这种情况会造成信息丢失，梯度消失在网络层数多的时候尤其明显，从而无法完成深层网络的训练。第一，采用sigmoid等函数，算激活函数是（指数运算），计算量大；

2023-03-16 11:03:39 459

原创轻量级卷积神经网络MobileNets详细解读

随着深度学习的飞速发展，计算机视觉领域内的卷积神经网络种类也层出不穷。从1998年的LeNet网络到2012引起深度学习热潮年的AlexNet网络，再到2014年的VGG网络，再到后来2015的ResNet网络，深度学习网络在图像处理上表现得越来越好。但是这些网络都在不断增加网络深度和宽度来提高网络的准确度，如深度残差网络（ResNet）其层数已经多达152层。网络准确度虽然得到了极大提高，但是网络参数量变得越来越大，网络变得越来越复杂，运行模型需要大量的算力资源。这些网络模型对于像手机这样的移动端嵌入式设

2023-01-08 11:13:09 2135 1

原创 ResNet网络模型

ResNet (Residual Neural Network，残差网络)由微软研究院何恺明，张翔宇，任少卿，孙剑等人提出。通过在深度神经网络中加入残差单元（Residual Unit）使得训练深度比以前更加高效。ResNet在2015年ILSVRC比赛中夺得冠军。因为该网络“简单与实用”并存，之后很多方法都建立在ResNet50或者ResNet101的基础上完成的，检测，分割，识别等领域都纷纷使用ResNet，Alpha zero也使用了ResNet。ResNet的结构可以极快的加速超深神经网络的训练，模

2023-01-03 15:10:49 1337 1

原创 GoogLeNet网络模型

GoogleNet 网络是14年由 Google 团队提出，GoogLeNet在2014年ImageNet挑战赛中获得冠军，因此该模型获得广泛关注。GoogleNet共22层，参数为500万个，AlexNet参数个数是GoogleNet的12倍，VGGNet参数又是AlexNet的3倍，因此在内存或计算资源有限时，GoogleNet是比较好的选择；从模型结果来看，GoogLeNet的性能却更加优越。

2022-12-25 15:22:36 673 2

原创 pytorch采用GPU加速方法

在进行深度学习训练模型时，对于计算量小一些的模型，是可以在CPU上进行的。但是当计算量比较大时，我们希望利用GPU并行计算的能力去加快训练的速度。

2022-12-19 16:00:34 2572 1

原创激活函数（Relu，sigmoid，Tanh，softmax）详解

总结了常用的激活函数，如何在工程实践中合理选择激活函数。

2022-12-10 12:52:25 23207 7

原创 Dataset和Dataloader的使用

理数据样本的代码可能会变得凌乱，难以维护；理想情况下，我们希望数据集代码与模型训练代码分离，以获得更好的可读性和模块性。PyTorch提供了两种数据原语：torch.utils.data.DataLoader和torch.utils.data.Dataset，允许你使用预加载的数据集以及自己的数据。Dataset 存储样本及其相应的标签，DataLoader将Dataset封装成一个迭代器以便轻松访问样本。

2022-12-09 18:45:31 411 1

原创基于卷积神经网络（cnn）的手写数字识别（PyTorch）

手写数字识别应用广泛，对其研究有重要价值。在众多算法中，卷积神经网络在手写数字识别上表现突出，而且在实现上诸多优点。使用卷积神经网络来处理手写数字是一个很好的选择。pytorch在算法实现上有着简洁，优雅等特点。因此采用卷积神经网络算法和pytorch框架来实现手写数字识别。

2022-12-08 19:22:25 12680 2

原创机器学习经典算法——朴素贝叶斯分类算法

贝叶斯分类器作为最经典的算法之一，贝叶斯算法是一种有监督学习算法，其理论基础是“贝叶斯定理”，该原理是由英国著名数学家托马斯·贝叶斯提出，贝叶斯定理是基于统计学和概率论相关知识实现的。贝叶斯分类器有着极其广泛的用途，例如广泛应用于情感分类，文本分类等分类任务。为了更好理解贝叶斯分类器原理，在理论推导之前理解几个基本概念。先验概率：根据经验知识得的概率。后验概率：某个事件发生是由某些因素引起的可能性大小。条件概率公式：设有事件A,B,已知B的条件下发生的概率为P（A|B）,将A，B事件同时发生记为P（A，B）

2022-12-03 19:35:49 62082 10

m0_53675977的博客