深度学习
文章平均质量分 83
深度学习
CVer儿
开源让世界更美好
展开
-
CNN真的需要下采样(上采样)吗?
背景介绍在常见的卷积神经网络中,采样几乎无处不在,以前是max_pooling,现在是strided卷积。以vgg网络为例,里面使用到了相当多的max_pooling输入侧在左面(下面是有padding的,上面是无padding的),可以看到网络中用到了很多2x2的pooling同样,在做语义分割或者目标检测的时候,我们用到了相当多的上采样,或者转置卷积典型的fcn结构,注意红色区分的decovolution以前,我们在分类网络的最后几层使用fc,后来fc被证明参数量太大泛化转载 2020-12-28 17:50:44 · 945 阅读 · 0 评论 -
有效防止softmax计算时上溢出(overflow)和下溢出(underflow)的方法
实数在计算机内用二进制表示,所以不是一个精确值,当数值过小的时候,被四舍五入为0,这就是下溢出。此时如果对这个数再做某些运算(例如除以它)就会出问题。反之,当数值过大的时候,情况就变成了上溢出。.........转载 2022-07-20 14:38:41 · 2117 阅读 · 2 评论 -
机器学习、深度学习知识点
本文仅用于学术分享,若侵权请联系删除前言这篇文章是老潘在那会找工作过程中整理的一些重要知识点,内容比较杂碎,部分采集于网络,简单整理下发出来,适合面试前突击,当然也适合巩固基础知识。另外推荐大家一本叫做《百面机器学习》的新书,2018年8月份出版的,其中包括了很多机器学习、深度学习面试过程中会遇到的问题,比较适合需要准备面试的机器学习、深度学习方面的算法工程师,当然也同样适合巩固基础~有时间一定要需要看的书籍: 程序员的数学系列,适合重温知识,回顾一些基础的线性代数、概率论。 深度学转载 2022-04-21 10:23:38 · 1940 阅读 · 0 评论 -
语义分割中FPN多尺度特征的配准问题
1.问题阐述语义分割的目的是给每一个像素进行正确的分类,这个定义提供了一种从分类视角看待问题的思路,但不能很好的阐述语义分割所面临的关键问题。顾名思义,语义分割是将图像分成若干块,同时获取块的类别,也就是语义信息。这其中有两个关键,一是分割的准确性,保证每个类边缘的准确;二是类别预测的准确性。要准确预测类别,需要利用深层的网络提取语义特征,而随着网络层数的加深,边缘细节不可避免的损失掉了。很直观的我们可以用边界预测的方式来解决这个问题,也的确有很多论文这么做。但更多的论文是通过融合多尺度特征来保转载 2021-08-16 10:11:10 · 1181 阅读 · 0 评论 -
CNN结构设计技巧-兼顾速度精度与工程实现
本文总结了CNN在分割、检测、low-level、metric learning等领域的应用方法和设计技巧。目录: 总纲 分割篇 low-level篇 检测篇 metric learning篇 分类篇 landmark篇 视频理解篇 双目篇 3D篇 数据增强篇 总纲cnn中各个参数的辩证矛盾。深度决定了网络的表达能力,网络越深学习能力越强。宽度(通道数)决定了网络在某翻译 2021-12-23 10:10:53 · 180 阅读 · 0 评论 -
轻量级姿态估计技巧综述
数据处理&增强篇1. 正确的归一化将坐标值归一化到(-0.5, 0.5)之间,公式为:由于目标检测的关系,姿态估计的对象大都会在图像的中央,用这样的归一化能很大的加速模型收敛2. Augmentation by Information Dropping(AID)2020 COCO Keypoint Challenge 冠军之路地址:https://zhuanlan.zhihu.com/p/210199401这是COCO2020 冠军团队的论文。作者认为在姿态估计任务.转载 2021-12-16 10:07:57 · 326 阅读 · 0 评论 -
超越CBAM,全新注意力GAM:不计成本提高精度
为了提高计算机视觉任务的性能,人们研究了各种注意力机制。然而,以往的方法忽略了保留通道和空间方面的信息以增强跨维度交互的重要性。因此,本文提出了一种通过减少信息弥散和放大全局交互表示来提高深度神经网络性能的全局注意力机制。>>加入极市CV技术交流群,走在计算机视觉的最前沿论文链接:https://paperswithcode.com/paper/global-attention-mechanism-retain-information为了提高计算机视觉任务的性能,人们研究了各种注.转载 2021-12-15 10:21:16 · 5244 阅读 · 3 评论 -
真正的即插即用-盘点11种CNN网络设计中精巧通用的“小”插件
前言本文盘点一些CNN网络中设计比较精巧而又实用的“插件”。所谓“插件”,就是不改变网络主体结构, 可以很容易嵌入到主流网络当中,提高网络提取特征的能力,能够做到plug-and-play。网络也有很多类似盘点工作,都宣称所谓的即插即用、无痛涨点。不过根据笔者经验和收集,发现很多插件都是不实用、不通用、甚至不work的,于是有了这一篇。首先,我的认识是:既然是“插件”,就要是锦上添花的,又容易植入,容易落地的,真正的即插即用。本文盘点的“插件”,在很多SOTA网络中会看到它们的影子。是值得推广的良心转载 2021-12-11 10:14:53 · 433 阅读 · 0 评论 -
深度学习中的人体姿态估计概述
作者:Bharath Raj编译: CV技术指南,文章仅用于学术分享。人体姿势骨架以图形格式表示人的方向。本质上,它是一组可以连接起来描述人的姿势的坐标。骨架中的每个坐标都称为零件(或关节或关键点)。两个部分之间的有效连接称为一对(或肢体)。请注意,并非所有零件组合都会产生有效的配对。下面显示了一个示例人体姿势骨架。左:人体姿势骨架的 COCO 关键点格式。右图:渲染的人体姿势骨架。多年来,人们引入了几种人体姿势估计方法。最早(也是最慢)的方法通常是在只有一个人的图像中估计单个人的姿势.转载 2021-10-20 17:19:30 · 889 阅读 · 0 评论 -
Attention 机制总结与代码实现(2017-2021年)
近几年,Attention-based方法因其可解释和有效性,受到了学术界和工业界的欢迎。但是,由于论文中提出的网络结构通常被嵌入到分类、检测、分割等代码框架中,导致代码比较冗余,对于像我这样的小白很难找到网络的核心代码,导致在论文和网络思想的理解上会有一定困难。因此,我把最近看的Attention、MLP和Re-parameter论文的核心代码进行了整理和复现,方便各位读者理解。本文主要对该项目的Attention部分做简要介绍。项目会持续更新最新的论文工作,欢迎大家follow和star该工作,若项转载 2021-10-19 17:12:45 · 675 阅读 · 0 评论 -
利用MSCNN实现人群密度监测
人群密度计数是指估计图像或视频中人群的数量、密度或分布,它是智能视频监控分析领域的关键问题和研究热点,也是后续行为分析、拥塞分析、异常检测和事件检测等高级视频处理任务的基础。随着城市化进程的快速推进,城市人口数量急剧增长,导致各种人员高度聚集的社会活动频繁发生,如果管控不当,极易发生拥挤踩踏事故。例如上海“12.31”外滩踩踏事故中,由于现场管理和应对措施不当,引发了人群拥挤和摔倒,最终造成了重大人员伤亡的严重后果。如果有精度良好的人群计数系统实时统计相关场所的人群数量、分布或密度等信息,及时发现人群拥挤和转载 2021-08-25 16:39:32 · 1079 阅读 · 1 评论 -
基于卷积神经网络的地铁平台人群计数
1.文章简介本次介绍的是一篇2021年发表的名为《ConvolutionalNeural Network for Crowd Counting on Metro Platforms》的有关计算机视觉的文章2.摘要随着城市轨道交通的使用增加,地铁站台上的客流在高峰期往往会急剧增加,出于安全原因,监控这些地区的客流非常重要。为了解决地铁站台客流检测问题,文章提出了一种基于卷积神经网络的网络,称为MP(Metro Platform)-CNN,以准确统计地铁站台上的人数。该方法由三个主要部分组成:转载 2021-07-20 18:31:38 · 707 阅读 · 4 评论 -
极化自注意力,更精细的双重注意力建模结构
作者丨小马编辑丨极市平台导读基于双重注意力机制,本文针对Pixel-wise regression的任务,提出了一种更加精细的双重注意力机制——极化自注意力。在人体姿态估计和语义分割任务上,作者将它用在了以前的SOTA模型上,并达到了新的SOTA性能,霸榜COCO人体姿态估计和Cityscapes语义分割。写在前面注意力机制是一个被广泛应用在各种CV任务中的方法。注意力机制根据施加的维度大致可以分为两类:通道注意力和空间注意力。对于通道注意力机制,代表性的工作有SENet[2]、EC转载 2021-07-16 18:53:12 · 2568 阅读 · 2 评论 -
皱巴巴的文件?深度学习在文档图像形变矫正的应用
OCR作为智能审核的重要环节,其识别准确率影响着最终审核效果的好坏,而来自扫描仪、智能手机的文档图像多存在卷曲、折叠。本文旨在利用深度学习算法对文档图像的形变进行矫正,从而提高OCR识别效果,为智能审核保驾护航。一、背景随着集团业务的高速发展以及集团对用户群体信用要求的提高,证件审核成为业务中必不可少的一个环节。譬如:支付宝需要对用户的身份证信息进行审核,1688需要对卖家的营业执照进行审核。此外,还有一些业务涉及的是需要专业人士才有足够能力进行审核的信用证和保单。近年来,人工智能在越来越多的任转载 2021-06-28 21:17:49 · 2320 阅读 · 0 评论 -
2021-06-26一文看尽深度学习中的20种卷积(附源码整理和论文解读)
卷积,是卷积神经网络中最重要的组件之一。不同的卷积结构有着不一样的功能,但本质上都是用于提取特征。比如,在传统图像处理中,人们通过设定不同的算子来提取诸如边缘、水平、垂直等固定的特征。而在卷积神经网络中,仅需要随机初始化一个固定卷积核大小的滤波器,并通过诸如反向传播的技术来实现卷积核参数的自动更新即可。其中,浅层的滤波器对诸如点、线、面等底层特征比较敏感,深层的滤波器则可以用于提取更加抽象的高级语义特征,以完成从低级特征到高级特征的映射。本文将从背景、原理、特性及改进四个维度分别梳理10篇影响力深远的经典卷转载 2021-06-26 17:54:43 · 1316 阅读 · 0 评论 -
3D上下文注意力Unet结构(ACUNet)
今天将分享Unet的改进模型ACUNet,改进模型来自2020年的论文《ACU-NET:A 3D ATTENTION CONTEXT U-NET FOR MULTIPLE SCLEROSIS LESION SEGMENTATION》,通过理解该模型思想,在VNet基础上可以做同样的改进。1、ACUNet优点Unet虽然在医疗分割领域获得了成功,但是其无效地使用上下文信息和特征表示,很难在MS病变上得到精准分割。为了解决该问题,文章提出了3D上下文注意力Unet结构(ACUNet),用来分割MS病变,转载 2021-06-05 10:13:45 · 5030 阅读 · 1 评论 -
Attention U-Net简介及其在Keras
1.什么是注意力(Attention)?在图像分割中,注意力是一种只突出训练中相关激活的方法。这减少了浪费在无关激活上的计算资源,为网络提供了更好的泛化能力。本质上,网络可以“关注”图像的某些部分。a)Hard AttentionAttention有两种形式,Hard和soft。Hard attention的工作原理是通过裁剪图像或迭代区域建议来突出显示相关区域。由于Hard attention一次只能选择一个图像的一个区域,它是不可微的,需要强化学习来训练。由于它是不可微分的,这意味着对于原创 2021-05-29 18:28:17 · 1056 阅读 · 0 评论 -
tf.keras实现ViPTT-Net---基于LSTM的医疗多序列图像分类
ViPTT-Net is a method that pretrains a hybrid CNN-RNN based model on realistic videos for human activity recognition task. It is then fine-tuned on a dataset of chest CT scans for the task of tuberculosis type classification.ViPTT-Net achieved 2nd place原创 2021-05-29 10:30:47 · 612 阅读 · 3 评论 -
DL概念
导语卷积神经网络架构设计,又指backbone设计,主要是根据具体任务的数据集特点以及相关的评价指标来确定一个网络结构的输入图像分辨率,深度,每一层宽度,拓扑结构等细节。公开发表的论文大多都是基于ImageNet这种大型的公开数据集来进行的通用结构设计,早期只以其分类精度来证明设计的优劣,后来也慢慢开始对比参数量(Params)和计算量(FLOPs),由于ImageNet的数据量十分巨大且丰富,所以通常在该数据集上获得很好精度的网络结构泛化到其他任务性能也都不会差。但在很多特定任务中,这种通用的结构虽然转载 2021-05-28 15:08:25 · 1080 阅读 · 0 评论 -
keras实现MSCNN人群密度估计
环境如下Python 3.6 Keras 2.2.2 Tensorflow-gpu 1.8.0 OpenCV 3.4MSCNN and MSB architecturesMSCNNMSBExperimentdataMall Dataset crowd counting datasetGenerate density_map from data:trainrun the follow command:python train.py...原创 2021-05-25 14:10:59 · 330 阅读 · 0 评论 -
L0 L1 L2 正则化
L0 L1 L2 正则化Jun 29 2018范数∥x∥p:=(∑i=1n|xi|p)1p‖x‖p:=(∑i=1n|xi|p)1pL1范数:当p=1时,表示某个向量中所有元素绝对值之和L1范数:当p=1时,表示某个向量中所有元素绝对值之和 L2范数:当p=2时,表示某个向量中所有元素平方和再开根,也就是欧几里得距离公式L2范数:当p=2时,表示某个向量中所有元素平方和再开根,也就是欧几里得距离公式对于线性回归模型,使用 L1 正则化的模型建叫做Lasso ...转载 2021-05-13 17:58:35 · 206 阅读 · 0 评论 -
感知损失介绍
1 概述文章:Perceptual Losses for Real-Time Style-Transfer and Super-Resolution作者: Justin Johnson, Alexandre Alahi, Li Fei-Fei相较于其他机器学习任务,如物体检测(object detection)或者实例分割(instance segmentation),超分辨重建技术中学习任务的损失函数的定义通常都相对简单粗暴,由于我们重建的目的是为了使得重建的高分辨率图片与真实高清图片之间的转载 2021-05-13 17:23:14 · 2352 阅读 · 0 评论 -
真正的即插即用!盘点11种CNN网络设计中精巧通用的“小”插件
导读所谓“插件”,就是要能锦上添花,又容易植入、落地,它属于trick,是用来提高模型上限的。本文将盘点11种常见的“插件”,它们能够提升CNN平移、旋转、scale等变性能力或多尺度特征提取,感受野等能力,在很多SOTA网络中都有它们的影子。01前言本文盘点一些CNN网络中设计比较精巧而又实用的“插件”。所谓“插件”,就是不改变网络主体结构, 可以很容易嵌入到主流网络当中,提高网络提取特征的能力,能够做到plug-and-play。网络也有很多类似盘点工作,都宣称所谓的即插即用、无痛涨点.转载 2021-05-11 09:37:48 · 615 阅读 · 0 评论 -
22 张图全解深度学习
吴恩达在推特上展示了一份由 TessFerrandez 完成的深度学习专项课程信息图,这套信息图优美地记录了深度学习课程的知识与亮点。因此它不仅仅适合初学者了解深度学习,还适合机器学习从业者和研究者复习基本概念。这不仅仅是一份课程笔记,同时还是一套信息图与备忘录。深度学习基础1. 深度学习基本概念监督学习:所有输入数据都有确定的对应输出数据,在各种网络架构中,输入数据和输出数据的节点层都位于网络的两端,训练过程就是不断地调整它们之间的网络连接权重。左上...转载 2021-05-10 16:38:21 · 2271 阅读 · 0 评论 -
值得思考的问题,什么?Epoch 不仅过时,而且有害?
有一天,一个调参侠在训练一个深度学习模型,要用到的两个数据集损失函数不同,数据集的大小还不是固定的,每天都在增加。他有点发愁,这该怎么设置Epoch数呢?在纠结的过程中,他突然想到:干嘛非得定一个Epoch数?只要对每个Batch进行独立同分布抽样(IID Sampling)不就得了。为了验证这个想法,调参侠去看了很多论文。发现越来越多的人介绍他们的训练方法时,只说进行了多少个Iteration,而抛弃了Epoch。他想到,Epoch暗示并强调了数据集是有限的,这不仅麻烦,还有潜在的“.转载 2021-05-10 15:02:21 · 296 阅读 · 0 评论 -
部署方案之模型部署概述
模型训练重点关注的是如何通过训练策略来得到一个性能更好的模型,其过程似乎包含着各种“玄学”,被戏称为“炼丹”。整个流程包含从训练样本的获取(包括数据采集与标注),模型结构的确定,损失函数和评价指标的确定,到模型参数的训练,这部分更多是业务方去承接相关工作。一旦“炼丹”完成(即训练得到了一个指标不错的模型),如何将这颗“丹药”赋能到实际业务中,充分发挥其能力,这就是部署方需要承接的工作。因此,一般来说,学术界负责各种 SOTA(State of the Art) 模型的训练和结构探索,而工业界负责将这些转载 2021-05-08 10:00:12 · 8562 阅读 · 0 评论 -
三大视觉任务的loss
机器学习算法的设计使其可以从错误中“学习”并使用我们提供给他们的训练数据来“更新”自己。但是他们如何量化这些错误呢?这是通过使用“损失函数”来完成的,该函数可以帮助算法了解与基本事实相比,其预测的错误程度。选择合适的损失函数很重要,因为它会影响算法尽快生成最佳结果的能力。01基本的损失函数:1.1 L2 LOSS 这是可用的最基本的损失,也称为MSE Loss。这依赖于两个向量[预测和真实标签]之间的Euclidean距离。 L2 Loss 对异常值非常敏感,...转载 2021-05-06 14:38:54 · 3454 阅读 · 2 评论 -
这才是魔改交叉熵的正确姿势!
在之前的这篇文章中,我们介绍了PyTorch中的交叉熵损失函数的具体使用方法(传送门),并举了大量的栗子进行解释。在此基础上,就可以尝试对交叉熵进行魔改啦~CrossEntropyLoss到底做了什么?吃瓜群众:那说一下魔改的具体内容呗...别着急,在开始魔改之前,需要花些篇幅介绍下在PyTorch中的CrossEntropyLoss内部所做的事情。这是官方给出的关于CrossEntropyLoss的维度说明。简而言之,分为两种情况: 网络的输出shape为[N,C],对应的真转载 2021-05-06 14:25:22 · 348 阅读 · 0 评论 -
动图形象理解深度学习卷积
二维卷积:操作二维卷积是一个相当简单的操作:从卷积核开始,这是一个小的权值矩阵。这个卷积核在 2 维输入数据上「滑动」,对当前输入的部分元素进行矩阵乘法,然后将结果汇为单个输出像素。一个标准的卷积卷积核重复这个过程知道遍历了整张图片,将一个二维矩阵转换为另一个二维矩阵。输出特征实质上是在输入数据相同位置上的加权和(权值是卷积核本身的值)。输入数据是否落入这个「大致相似区域」,直接决定了数据经过卷积核后的输出。这意味着卷积核的尺寸直接决定了生成新的特征时汇合了多少(...转载 2021-05-06 14:17:59 · 1263 阅读 · 0 评论 -
神经网络量化原理
量化是将数值 x 映射到 y 的过程,其中 x 的定义域是一个大集合(通常是连续的),而 y 的定义域是一个小集合(通常是可数的)。8-bit 低精度推理,是将一个原本 FP32 的浮点张量转化成一个 int8/uint8 张量来处理。先看一下浮点数和 8-bit 整数的完整表示范围。模型量化会带来如下两方面的好处: 减少内存带宽和存储空间 深度学习模型主要是记录每个 layer(比如卷积层/全连接层) 的 weights 和 bias, FP32 模型中,每个 weight /bias转载 2021-05-06 13:57:37 · 3510 阅读 · 1 评论 -
实操教程|怎样制作目标检测的训练样本图像
像元值应该如何进行归一化? 样本图像的尺寸仅与内存、显存大小有关吗? 网络能检测的目标框范围只与图像大小有关吗? 卷积网络真的具有平移和旋转不变性? 制作目标检测训练样本的最佳方案是什么? 以下为原文:像元值应该如何进行归一化?不能想当然地认为像元值的取值范围就是0到255,虽然普通数码相机拍摄出来的图像各个通道的取值范围确实是0-255。要知道这个0-255的取值是从更大取值范围处理得来的。在局部强烈光照下或者均匀光照下,还是弱光环境或者强光环境,人..转载 2021-05-04 23:29:23 · 761 阅读 · 0 评论 -
缺陷检测算法汇总(传统+深度学习方式)|综述、源码
作者丨Tom Hardy@知乎来源丨https://zhuanlan.zhihu.com/p/305087419文献资料汇总https://github.com/Eatzhy/surface-defect-detection综述:机器视觉表面缺陷检测综述缺陷检测工具箱https://github.com/abin24/Saliency-detection-toolbox基于深度学习方式1、语义分割方式https://github.com/Wslsdx/Deep-..转载 2021-04-27 16:59:26 · 1502 阅读 · 0 评论 -
TENSORRT INT8量化原理以及如何编写校准器类进行校准
原文目录1、INT8量化过程2、编写校准器,并进行INT8量化1、INT8量化过程众所周知,一个训练好的深度学习模型,其数据包含了权重(weights)和偏移(biases)两部分,在其进行前向推理(forward)时,中间会根据权重和偏移产生**值(activation)。关于INT8的量化原理,这篇回答非常详尽,我这里就简单说结论了:TensorRT在进行INT8量化时,对权重直接使用了最大值量化,对偏移直接忽略,对前向计算中的**值的量化是重点; 对**值进行INT8量化转载 2021-04-27 16:49:27 · 1846 阅读 · 1 评论 -
Int8量化-介绍
原文前 言本系列的目是详细叙述当前移动端Int8的方方面面,从最底层的Int8的汇编层实现原理以及汇编性能优化手段,到中间层的移动框架的配套代码实现(标准就以NCNN为例吧),以及上层对应的PC端量化方法(各种论文思路)总结及实现,和最后模型端re-train的方法、策略及指标介绍。此外,利用PowerPerf(一种专门针对ARM CPU应用性能优化而开发的调试工具)对卷积kernel(汇编算子)各项硬件参数指标进行量化优化也是本文的重点,旨在提炼出一套通用的汇编代码调优方法论,从而使得Powe转载 2021-04-27 16:42:58 · 6443 阅读 · 0 评论 -
深度学习实现视频分类的6种方法
对视频进行分类是一个活跃的研究领域,因为处理这种类型的问题需要大量的数据。内存需求经常达到现代GPU的极限,可能需要在多台机器上进行分布式的训练。目前学者们正在探索复杂度不断增加的几个方向,来回顾一下:第一种方法是通过将视频的每一帧视为一幅单独的图像,利用二维 CNN 进行处理。这种方法将视频分类问题简化为图像分类问题。每帧视频图像都有类别输出,并且根据各帧输出的类别,选择频率最高的类别作为视频的分类结果。 第二种方法是创建一个单一的网络,将二维 CNN 与一个 RNN 结合在一起。这个想法是,CN转载 2021-04-17 11:39:30 · 13660 阅读 · 3 评论 -
keras的MobileNetv3中的attention解析
from keras import backend as Kfrom keras.layers import (Activation, Add, BatchNormalization, Conv2D, Dense, DepthwiseConv2D, GlobalAveragePooling2D, Input, Multiply, Reshape)from keras.models impor...原创 2021-04-16 01:47:40 · 667 阅读 · 0 评论 -
快速sigmoid算法
使用C内置函数exp()来计算f(x)的值是慢的,sigmoid在CPU中计算耗时比较大,可以参考fast-sigmoid-algorithm。 CPU上性能对比结果100000 times sigmoid ==> 2.81878ms fast sigmoid ==> 0.589737ms,而GPU上两者差异忽略不记。 fast_sigmoid(x) = (x / (1 + |x|)) * 0.5 + 0.5如果f(x)的参数不接近于零,则对于exp(x)使用序列扩展的第一个术语将原创 2021-04-12 01:39:29 · 2452 阅读 · 0 评论 -
channel-attention
channel-attentionGluon implementation of some channel attention modules.https://github.com/mnikitin/channel-attentionMethod Paper Overview SE https://arxiv.org/abs/1709.01507 ECA https://arxiv.org/abs/1910.03151 .原创 2021-04-05 00:43:58 · 1500 阅读 · 1 评论 -
keras和torch实现ECANet通道注意力
his is an implementation of ECA-Net(CVPR2020,paper), created by Banggu Wu.https://github.com/BangguWu/ECANethttps://github.com/devenin/ECANet-kerasimport mathfrom keras.layers import *from keras.layers import Activationfrom keras.layers import Gl原创 2021-04-04 22:49:07 · 2672 阅读 · 12 评论 -
keras中non_local注意力实现
依旧是思路和资料整理Non local NN从传统方法Non local means中获得灵感,然后接着在神经网络中应用了这个思想,直接融合了全局的信息,而不仅仅是通过堆叠多个卷积层获得较为全局的信息。这样可以为后边的层带来更为丰富的语义信息。具体可以参考:https://www.cnblogs.com/pprp/p/12199807.htmlKeras Non-Local Neural NetworksKeras implementation of Non-local blocks from原创 2021-03-10 16:14:41 · 1077 阅读 · 0 评论