AI浩

分享人工智能知识，包括：计算机视觉、NLP以及机器学习等领域。注重基础与实践，尽最大的努力让每个初学者看懂学会。

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载图像特征——下篇

图像特征在图像特征系列，我们列举了这几年kaggle竞赛平台上90%以上最为常用的图像特征，对应的框架如下，很多特征已经在之前的上篇和中篇介绍完了，此处我们弥补上剩下的一些常用图像特征：1.图像色彩特征图像色彩有许多实际用途，包括评估压缩算法、评估给定相机传感器模块对颜色的敏感度、计算图像的“美学质量”等等，图像色彩越高的话往往图片越加亮丽更能吸引用户。此处我们借鉴2003年的论文"Measuring colorfulness in natural images"使用Ope.

2021-04-30 09:24:52 713

原创 C++中new与malloc的区别

这是个老生常谈的问题。当时我回答new从自由存储区上分配内存，malloc从堆上分配内存；new/delete会调用构造函数/析构函数对对象进行初始化与销毁；operator new/delete可以进行重载；然后强行分析了一下自由存储区与堆的区别。回来后感觉这个问题其实回答得不怎么好，因为关于new与malloc的区别实际上很多。面试期间刚好是刚期末考完，之后是几个课设没时间去整理。今天花了点时间整理下这个问题。new与malloc的10点区别1. 申请的内存所在位置new操作符从自由存储区（

2021-04-29 11:11:53 1856

原创图像分割库segmentation_models.pytorch

segmentation_models_pytorch是一个基于PyTorch的图像分割神经网络这个新集合由俄罗斯的程序员小哥Pavel Yakubovskiy一手打造。github地址：https://github.com/qubvel/segmentation_models.pytorch该库的主要功能是：高级API（只需两行即可创建神经网络）用于二分类和多类分割的9种模型架构（包括传奇的Unet）每种架构有104种可用的编码器所有编码器均具有预训练.

2021-04-28 23:03:02 11141 5

转载图像特征——中篇

图像特征和文本特征类似，图像特征也是梯度提升树模型非常难以挖掘的一类数据，目前图像相关的问题，例如图像分类，图像分割等等几乎都是以神经网络为主的模型，但是在一些多模态的问题中，例如商品搜索推荐的问题中，里面既包含图像信息又含有文本信息等，这个时候基于梯度提升树模型的建模方案还是至关重要的，这个时候为了更好地使用所有的数据信息，我们需要对图像特征进行多方位的提取。本节我们接着上一节10大特征之后再补充另外的一些最为经典的特征。1.图像预训练特征目前预训练的图像特征非常的多，典型

2021-04-28 09:30:20 1268

原创 tensorflow gpu和cuda版本的对应关系

GPU版本 Python 版本编译器构建工具 cuDNN CUDA tensorflow-2.4.0 3.6-3.8 GCC 7.3.1 Bazel 3.1.0 8.0 11.0 tensorflow-2.3.0 3.5-3.8 GCC 7.3.1 Bazel 3.1.0 7.6 10.1 tensorflow-2.2.0 3.5-3.8 GCC 7.3.1 Bazel 2.0.0

2021-04-27 16:05:44 9880

原创 EIRP/ERP名词解释及计算。

EIRP/ERP名词解说明：EIRP是什么？EIRP：称为等效全向辐射功率(Effective Isotropic Radiated Power) 。EIRP 功率为无线电发射机供给天线的功率与在给定方向上天线绝对增益的乘积。各方向具有相同单位增益的理想全向天线，通常作为无线通信系统的参考天线。EIRP 功率的定义为：EIRP=Pt*Gt，它表示同全向天线相比，可由发射机获得的在最大天线增益方向上的发射功率。Pt表示发射机的发射功率，Gt表示发射天线的天线增益。在无线通信工程中，通常用来衡量干扰的

2021-04-27 15:38:42 7417

原创射频器件——定向耦合器

定向耦合器是一种通用的微波/毫米波部件，可用于信号的隔离、分离和混合，如功率的监测、源输出功率稳幅、信号源隔离、传输和反射的扫频测试等。主要技术指标有方向性、驻波比、耦合度、插入损耗。基本简介定向耦合器是微波系统中应用广泛的一种微波器件，它的本质是将微波信号按一定的比例进行功率分配。定向耦合器由传输线构成，同轴线、矩形波导、圆波导、带状线和微带线都可构成定向耦合器，所以从结构来看定向耦合器种类繁多，差异很大。但从它的耦合机理来看主要分为四种，即小孔耦合、平行耦合、分支耦合以及匹配双T。定向耦

2021-04-26 21:13:43 10606 1

转载图像特征-上篇（10大图像特征）

图像特征和文本特征类似，图像特征也是梯度提升树模型非常难以挖掘的一类数据，目前图像相关的问题，例如图像分类，图像分割等等几乎都是以神经网络为主的模型，但是在一些多模态的问题中，例如商品搜索推荐的问题中，里面既包含图像信息又含有文本信息等，这个时候基于梯度提升树模型的建模方案还是至关重要的，这个时候为了更好地使用所有的数据信息，我们需要对图像特征进行多方位的提取。本节我们将会介绍图像特征提取中常常采用的方法技术。1.图像长宽图像的长宽可以表示图像的大小。图像的长宽以及c

2021-04-26 10:23:13 4597

转载文本特征工程——下篇

文本特征-下篇针对梯度提升树模型对文本特征进行特征工程，我们需要充分挖掘Label编码丢失的信息，例如上面的名字特征，内部存在非常强的规律，Mr等信息，这些信息反映了性别相关的信息，如果直接进行Label编码就会丢失此类信息，所以我们可以通过文本技巧对其进行挖掘。在本文中，我们对现在常用的文本特征进行汇总。在上篇中介绍过的此处不在赘述。1.词汇属性特征每个词都有其所属的属性，例如是名词，动词，还是形容词等等。词汇属性特征很多时候能帮助模型带来效果上的微弱提升，可以作为一类补充信息

2021-04-26 10:21:34 1276

原创 wandb.errors.UsageError: api_key not configured (no-tty). call wandb.login(key=[your_api_key])

在Power Shell 输入命令： wanbd init 然后出现下图。复制网址到浏览器打开，然后注册，注册完成后会给一个注册码。复制注册码，然后单击鼠标右键，然后按Enter键（注意，注册码不显示，直接单击右键就行）...

2021-04-25 13:28:36 20414 32

原创 OMP: Error #15: Initializing libiomp5md.dll, but found libiomp5md.dll already initialized.

Optimizer groups: 62 .bias, 70 conv.weight, 59 otherScanning labels VOC\labels\train.cache (494 found, 0 missing, 0 empty, 0 duplicate, for 494 images): 494it [00:00, 14565.09it/s]Scanning labels VOC\labels\val.cache (55 found, 0 missing, 0 empty, 0 dupl

2021-04-25 10:36:24 369

原创 RuntimeError: a view of a leaf Variable that requires grad is being used in an in-place operation.

修改代码。如下： def _initialize_biases(self, cf=None): # initialize biases into Detect(), cf is class frequency # cf = torch.bincount(torch.tensor(np.concatenate(dataset.labels, 0)[:, 0]).long(), minlength=nc) + 1. m = self.model[-1] # Detect

2021-04-25 10:32:51 5431 2

原创 yolov5 导出LibTorch模型（CPU和GPU)

官方给出的是CPU："""Exports a YOLOv5 *.pt model to ONNX and TorchScript formatsUsage: $ export PYTHONPATH="$PWD" && python models/export.py --weights ./weights/yolov5s.pt --img 640 --batch 1"""import argparseimport torchimport torch.nn as .

2021-04-25 10:10:51 2859 6

原创未找到导入的项目“C:\Program Files (x86)\Microsoft Visual Studio\2017\Enterprise\Common7\IDE\VC\VCT

在安装CUDA11.0时遇到如下：未找到导入的项目“C:\Program Files (x86)\Microsoft Visual Studio\2017\Enterprise\Common7\IDE\VC\VCTargets\BuildCustomizations\CUDA 11.0.props”。请确认 <Import> 声明中的路径正确，且磁盘上存在该文件。 C:\ProgramData\NVIDIA Corporation\CUDA Samples\v11.0\1_Utilitie.

2021-04-24 11:52:36 7292 2

原创（Win10+vs2017）配置OpenCV开发环境

OpenCV介绍 OpenCV是一个基于BSD许可(开源)发行的跨平台计算机视觉和机器学习软件库，可以运行在Linux、Windows、Android和Mac OS操作系统上。它轻量级而且高效--由一系列 C 函数和少量 C++ 类构成，同时提供了Python、Ruby、MATLAB等语言的接口，实现了图像处理和计算机视觉方面的很多通用算法。 OpenCV用C++语言编写，它具有C ++，Python，Java和MATLAB接口，并支持Windows，Linux，Android...

2021-04-23 14:32:26 917

原创【Kaggle】鸟叫识别

目录赛题识别声景录音中的鸟叫声文件数据下载地址赛题理解code音频数据转图像切分训练集和验证集训练测试赛题识别声景录音中的鸟叫声您在本次比赛中面临的挑战是确定哪些鸟类在长录音中调用，因为培训数据是在有意义的不同环境中生成的。这正是科学家试图自动化对鸟类种群的远程监测所面临的确切问题。本次比赛以上一场比赛为基础，增加了来自新地点的声景、更多的鸟类物种、关于测试集录音的更丰富的元数据以及火车集的声景。文件介绍trai...

2021-04-22 21:49:33 12836 4

原创 LibTorch入门——Win10+VS2017配置LibTorch开发环境。

最近想研究一下如何部署pytorch模型，看到别人说LibTorch不错，是最近流行的C++部署框架，我打算试试。首先，去pytorch官网上下载，如下图，上面的连接是release版本，下面是Debug版本，支持C++，但是Window不支持Java。点击连接下载下来。我选择的是release版本的。将解压后的文件复制到C盘，如下图：设置环境变量：右键我的电脑->高级系统设置->高级中的环境变量->点击系统变量中的Path->添加dll路径：. .

2021-04-21 12:05:20 7621 4

转载特征工程——文本特征

注意：1.本系列所有的文章主要是梯度提升树模型展开的，抽取的特征主要为帮助梯度提升树模型挖掘其挖掘不到的信息，本文介绍的所有特征都可以当做特征直接加入模型，和基于神经网络的策略有些许差别；2. 因篇幅过多，本篇文章介绍文本特征的20种不同的特征，后续的文本特征会在后面的文章中更新！文本特征-上篇文本特征和类别特征会有一些简单的交集，一些简单的文本特征可以直接当做类别特征处理，例如：花的颜色：red，blue，yellow等等；名字：Mr jack，Mr smi..

2021-04-20 12:20:16 3552

原创 OSError: cannot write mode P as JPEG

对于这个问题，需要做的也很简单，无非就是将模式“P”转化为“RGB”模式，再保存为“jpg”就可以了，所以只用增加两行代码： if img.mode == "P": img = img.convert('RGB')

2021-04-19 21:11:33 2297

转载特征工程-无序单无序类别特征特征工程！

前言在之前的文章中，我们已经介绍过部分类别特征编码的内容，此处，我们将所有的内容进行整合为一个系列，我们不罗列过多的知识点，重点介绍在kaggle过往几年内中大家最为常用有效的类别编码技巧，如果对其它类型编码感兴趣的朋友可以学习扩展部分的内容。类别特征编码在很多表格类的问题中，高基数的特征类别处理一直是一个困扰着很多人的问题，究竟哪一种操作是最好的，很难说，不同的数据集有不同的特性，可能某一种数据转化操作这A数据集上取得了提升，但在B数据集上就不行了，但是知道的技巧越多，我们能.

2021-04-19 09:10:12 1304 1

转载特征工程--有序类别变量&单数值变量特征工程

有序类别特征有序类别特征，故名思意，就是有相对顺序的类别特征。例如：年龄段特征："1-10,11-20,21-30,31-40"等年龄段；评分特征："high,medium,low"；有序类别特征和无序的类别特征有些许区别，例如Label编码等，如果我们直接按照原先的LabelEncoder进行转化就会丢失特征相对大小的信息，这对于梯度提升树模型会带来负向的效果，因为序列信息可能和标签有着强烈的相关性，比如回购的问题，有“high,medium,low”三种评分，用户购物之

2021-04-19 09:05:27 2129

转载特征工程--单时间变量特征

时间特征时间信息是极其敏感的信息，我们在数据竞赛中看到分数前后排出现较大gap的时候，第一时间需要考虑的就是时间信息，时间特征在很多竞赛中，往往可以决定排名的走势，那么当我们拿到时间相关的特征时，该如何进行思考，构建强有力的特征呢？（PS：本文我们介绍8大常见的单变量时间特征，剩下的两个可能一不小心拿金牌强特会在后续分享）。1.基础周期特征(年月日特征拆解)几乎所有的时间都可以被拆解为年-月-日-小时-分钟-秒-毫秒的形式。在大多数情况中，拆解之后的数据往往存在某些潜在规律的，比如：.

2021-04-19 09:02:35 691 2

原创无法在Kaggle笔记本中安装Python库

在notebooks的右侧有internet，打开就可以安装了。

2021-04-18 15:30:01 1045

转载蛋白质结构预测大赛top1方案分享

项目github地址：https://github.com/wudejian789/2020TIANCHI-ProteinSecondaryStructurePrediction-TOP11. 赛题介绍本题为根据蛋白质的一级结构预测其二级结构，经过比赛期间组内师兄的讲解，我对蛋白质一级结构二级结构的理解如下，如有错误，欢迎指正。蛋白质可以看成是一条氨基酸序列，在空间中是一种相互交错螺旋的结构，像一条互相缠绕的绳子：这种三维结构叫做蛋白质的三级结构，而如果不考虑结构的三维性，或者说把这整条

2021-04-18 09:46:14 1000

原创医学影像报告异常检测线上0.895开源

赛题：全球人工智能技术创新大赛赛道一: 医学影像报告异常检测赛题背景影像科医生在工作时会观察医学影像（如CT、核磁共振影像），并对其作出描述，这些描述中包含了大量医学信息，对医疗AI具有重要意义。本任务需要参赛队伍根据医生对CT的影像描述文本数据，判断身体若干目标区域是否有异常以及异常的类型。初赛阶段仅需判断各区域是否有异常，复赛阶段除了判断有异常的区域外，还需判断异常的类型。判断的结果按照指定评价指标进行评测和排名，得分最优者获胜。赛题描述及数据说明sample数据医生对若干CT的影像

2021-04-18 09:20:35 7078

原创 AI+无线通信——Top7 （Baseline）总结

队伍介绍我们的队伍名是Baseline，我们因分享Baseline结缘，所以就把队伍名叫Baseline。队长：方曦来自上海交通大学，研三。队员：吕晓欣来自网易，AI工程师队员：王浩来自北京星河亮点，软件研发队员：杨信达来自广州一家企业，AI工程师方案摘要对于当前通信系统来说，物理层是通信服务得到保障的基础；而对于物理层来说，MIMO则是基本的支撑技术；对于MIMO来说，准确地确定信道质量并做有效反馈及利用又是必...

2021-04-18 07:28:07 6132

转载霸榜多个CV任务，开源仅两天，微软分层ViT模型收获近2k star

屠榜各大 CV 任务的微软 Swin Transformer，近日开源了代码和预训练模型。自 2017 年 6 月谷歌提出 Transformer 以来，它便逐渐成为了自然语言处理领域的主流模型。最近一段时间，Transformer 更是开启了自己的跨界之旅，开始在计算机视觉领域大展身手，涌现出了多个基于 Transformer 的新模型，如谷歌用于图像分类的 ViT 以及复旦、牛津、腾讯等机构的 SETR 等。由此，「Transformer 是万能的吗？」也一度成为机器学习社区的热门话题。不久.

2021-04-16 13:55:36 324

原创 11、QT基础——文件系统

文件操作是应用程序必不可少的部分。Qt 作为一个通用开发库，提供了跨平台的文件操作能力。Qt 通过QIODevice提供了对 I/O 设备的抽象，这些设备具有读写字节块的能力。下面是 I/O 设备的类图（Qt5）：QIODevice：所有 I/O 设备类的父类，提供了字节块读写的通用操作以及基本接口； QFileDevice：Qt5新增加的类，提供了有关文件操作的通用实现。 QFlie：访问本地文件或者嵌入资源； QTemporaryFile：创建和访问本地文件系统的临时文件； QBuf..

2021-04-16 13:37:22 622

原创 10、QT基础——绘图和绘图设备

10.1 QPainterQt 的绘图系统允许使用相同的 API 在屏幕和其它打印设备上进行绘制。整个绘图系统基于QPainter，QPainterDevice和QPaintEngine三个类。QPainter用来执行绘制的操作；QPaintDevice是一个二维空间的抽象，这个二维空间允许QPainter在其上面进行绘制，也就是QPainter工作的空间；QPaintEngine提供了画笔（QPainter）在不同的设备上进行绘制的统一的接口。QPaintEngine类应用于QPainter和..

2021-04-16 13:35:45 921

原创 9、QT基础——Qt消息机制和事件

9.1 事件事件（event）是由系统或者 Qt 本身在不同的时刻发出的。当用户按下鼠标、敲下键盘，或者是窗口需要重新绘制的时候，都会发出一个相应的事件。一些事件在对用户操作做出响应时发出，如键盘事件等；另一些事件则是由系统自动发出，如计时器事件。在前面我们也曾经简单提到，Qt 程序需要在main()函数创建一个QApplication对象，然后调用它的exec()函数。这个函数就是开始 Qt 的事件循环。在执行exec()函数之后，程序将进入事件循环来监听应用程序的事件。当事件发生时，Qt ...

2021-04-16 13:33:17 747

原创 8、QT基础——常用控件

Qt为我们应用程序界面开发提供的一系列的控件，下面我们介绍两种最常用一些控件，所有控件的使用方法我们都可以通过帮助文档获取。8.1 QLabel控件使用QLabel是我们最常用的控件之一，其功能很强大，我们可以用来显示文本，图片和动画等。显示文字（普通文本、html）通过QLabel类的setText函数设置显示的内容:void setText(const QString &)可以显示普通文本字符串QLable *label = new QLable;...

2021-04-16 13:31:23 1349

原创 7、QI基础——布局管理器

所谓 GUI 界面，归根结底，就是一堆组件的叠加。我们创建一个窗口，把按钮放上面，把图标放上面，这样就成了一个界面。在放置时，组件的位置尤其重要。我们必须要指定组件放在哪里，以便窗口能够按照我们需要的方式进行渲染。这就涉及到组件定位的机制。Qt 提供了两种组件定位机制：绝对定位和布局定位。绝对定位就是一种最原始的定位方法：给出这个组件的坐标和长宽值。这样，Qt 就知道该把组件放在哪里以及如何设置组件的大小。但是这样做带来的一个问题是，如果用户改变了窗口大小，比如点击最大化按钮或者使用鼠标拖动窗..

2021-04-16 13:29:06 361

原创 6、QT基础——对话框QDialog

6.1 基本概念对话框是 GUI 程序中不可或缺的组成部分。很多不能或者不适合放入主窗口的功能组件都必须放在对话框中设置。对话框通常会是一个顶层窗口，出现在程序最上层，用于实现短期任务或者简洁的用户交互。Qt 中使用QDialog类实现对话框。就像主窗口一样，我们通常会设计一个类继承QDialog。QDialog（及其子类，以及所有Qt::Dialog类型的类）的对于其 parent 指针都有额外的解释：如果 parent 为 NULL，则该对话框会作为一个顶层窗口，否则则作为其父组件的子对话框..

2021-04-16 13:27:07 9899

原创 5、 QT基础——QMainWindow

QMainWindow是一个为用户提供主窗口程序的类，包含一个菜单栏（menu bar）、多个工具栏(tool bars)、多个锚接部件(dock widgets)、一个状态栏(status bar)及一个中心部件(central widget)，是许多应用程序的基础，如文本编辑器，图片编辑器等。5.1 菜单栏一个主窗口最多只有一个菜单栏。位于主窗口顶部、主窗口标题栏下面。创建菜单栏，通过QMainWindow类的menubar（）函数获取主窗口菜单栏指针QMenuBar *...

2021-04-16 13:25:37 515

原创 4、QT基础——信号和槽机制

信号槽是 Qt 框架引以为豪的机制之一。所谓信号槽，实际就是观察者模式。当某个事件发生之后，比如，按钮检测到自己被点击了一下，它就会发出一个信号（signal）。这种发出是没有目的的，类似广播。如果有对象对这个信号感兴趣，它就会使用连接（connect）函数，意思是，将想要处理的信号和自己的一个函数（称为槽（slot））绑定来处理这个信号。也就是说，当信号发出时，被连接的槽函数会自动被回调。这就类似观察者模式：当发生了感兴趣的事件，某一个操作就会被自动触发。4.1 系统自带的信号和槽下面我们完成一个

2021-04-16 10:20:07 391

原创 3、 QT基础——第一个Qt小程序

3.1 按钮的创建在Qt程序中，最常用的控件之一就是按钮了，首先我们来看下如何创建一个按钮QPushButton * btn = new QPushButton; 头文件 #include <QPushButton> //设置父亲 btn->setParent(this); //设置文字 btn->setText("德玛西亚"); //移动位置 btn->move(100,100);...

2021-04-16 10:02:46 450

原创 2、QT基础——创建Qt项目

2.1 使用向导创建打开Qt Creator 界面选择 New Project或者选择菜单栏【文件】-【新建文件或项目】菜单项弹出New Project对话框，选择Qt Widgets Application，选择【Choose】按钮，弹出如下对话框设置项目名称和路径，按照向导进行下一步，选择编译套件向导会默认添加一个继承自CMainWindow的类，可以在此修改类的名字和基类。默认的基类有QMainWindow、QWidget以及QDialog三个，我们可以选

2021-04-16 09:57:53 1214

原创 1、QT基础——Qt概述

1.1 什么是QtQt是一个跨平台的C++图形用户界面应用程序框架。它为应用程序开发者提供建立艺术级图形界面所需的所有功能。它是完全面向对象的，很容易扩展，并且允许真正的组件编程。1.2 Qt的发展史1991年 Qt最早由奇趣科技开发1996年进入商业领域，它也是目前流行的Linux桌面环境KDE的基础2008年奇趣科技被诺基亚公司收购，Qt称为诺基亚旗下的编程语言2012年 Qt又被Digia公司收购2014年4月跨平台的集成开发环境Qt Creator3.1.0发布，同

2021-04-16 09:53:37 538

转载压缩版styleGAN，合成高保真图像，参数更少、计算复杂度更低

一个名为 MobileStyleGAN 的新架构大大减少了基于样式 GAN 的参数量，降低了计算复杂度。近年来在生成图像建模中，生成对抗网络（GAN）的应用越来越多。基于样式（style-based）的 GAN 可以生成不同层次的细节，大到头部形状、小到眼睛颜色，它在高保真图像合成方面实现了 SOTA，但其生成过程的计算复杂度却非常高，难以应用于智能手机等移动设备。近日，一项专注于基于样式的生成模型的性能优化的研究引发了大家的关注。该研究分析了 StyleGAN2 中最困难的计算部分，并对生成器.

2021-04-15 13:03:42 262

原创发现一个好用的pytorch框架：timm

项目地址：https://github.com/rwightman/pytorch-image-models安装方法：pipinstalltimm目前已经更新到0.45了。

2021-04-12 18:54:05 6087 9

EfficientFormer实战：使用EfficientFormerV2实现图像分类任务

EfficientFormerV2是一种通过重新思考ViT设计选择和引入细粒度联合搜索策略而开发出的新型移动视觉骨干网络。它结合了卷积和变换器的优势，通过一系列高效的设计改进和搜索方法，实现了在移动设备上既轻又快且保持高性能的目标。这一成果为在资源受限的硬件上有效部署视觉变换器模型提供了新的思路原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/142367223

2024-09-19

GCViT实战：使用GCViT实现图像分类任务

GC ViT（全局上下文视觉转换器）是一种创新的深度学习架构，旨在提升计算机视觉任务中的参数和计算效率。它通过将全局上下文自注意力模块与标准的局部自注意力相结合，有效地建模长程和短程空间交互，同时避免了传统方法中的昂贵操作，如计算注意力掩码或移动局部窗口。GC ViT解决了Vision Transformer（ViT）中归纳偏差缺失的问题，并通过引入改进的融合倒置残差块来增强性能。在多个视觉任务（如图像分类、目标检测和语义分割）中，GC ViT均取得了最先进的结果。原文链接：https://blog.csdn.net/m0_47867638/article/details/141654892

2024-09-02

CAS-ViT实战：使用CAS-ViT实现图像分类任务

CAS-ViT（Convolutional Additive Self-attention Vision Transformer）通过一系列创新，成功实现了计算与效率的平衡。其核心在于提出了一种新颖的加性相似度函数和卷积加性标记混合器（Convolutional Additive Token Mixer, CATM），这一设计显著降低了计算开销。原文链接：https://blog.csdn.net/m0_47867638/article/details/141404169

2024-08-22

GroupMamba实战：使用GroupMamba实现图像分类任务

状态空间模型（SSM）的最新进展展示了在具有次二次复杂性的长距离依赖建模中的有效性能。GroupMamba解决了将基于SSM的模型扩展到计算机视觉领域的挑战，特别是大型模型尺寸的不稳定性和低效性。GroupMamba在ImageNet-1K的图像分类、MS-COCO的目标检测和实例分割以及ADE2OK的语义分割方面，相比现有方法取得了更优的性能。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/140775861

2024-07-31

EfficientMod实战：使用EfficientMod实现图像分类任务

论文提出了一种名为“高效调制（EfficientMod）”的新型设计，旨在提升视觉网络在准确性和效率之间的权衡。作者重新审视了现有的调制机制，该机制通过卷积上下文建模和特征投影层处理输入，并通过逐元素乘法和多层感知机（MLP）块融合特征。为了进一步提升效率，作者设计了EfficientMod块，作为他们网络的基本构建块。 EfficientMod的优势在于其能够利用调制机制的卓越表示能力，同时通过简化设计来减少计算冗余和延迟。与传统的自注意力机制相比，EfficientMod的计算复杂度与图像大小呈线性关系，而不是与标记数量呈立方关系，这使得它在处理大规模图像时更加高效。此外，与现有的高效卷积网络如FocalNet和VAN相比，EfficientMod块更为简单，但保留了它们的主要优点，如使用大核卷积块进行上下文建模和通过调制来增强特征表示。 https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/140520113

2024-07-20

RDNet实战：使用RDNet实现图像分类任务

论文提出的模型主要基于对传统DenseNet架构的改进和复兴，通过一系列创新设计，旨在提升模型性能并优化其计算效率，提出了RDNet模型。该模型的主要特点和改进点： ### 1. 强调并优化连接操作（Concatenation）论文首先强调了DenseNet中连接操作（Concatenation）的重要性，并通过广泛的实验验证了连接操作在性能上能够超越传统的加法快捷连接（Additive Shortcut）。这一发现促使研究者们重新审视并优化DenseNet的连接机制。

2024-07-09

YoloV8改进策略-注意力篇-Block改进-附结构图-自研基于xLSTM的注意力

本文使用Vision-LSTM的xLSTM改进YoloV8的Bottleneck结构，增加自研的注意力机制，取得了不错的得分。如果大家想发顶会，或者比较好的期刊，可以优先考虑！包含完整代码和PDF文章

2024-07-01

YoloV8摔倒检测完整代码

YoloV8摔倒检测完整代码，包含代码和数据集！打开就可以使用！搜集了多个数据集。

2024-06-24

StarNet实战：使用StarNet实现图像分类任务

论文主要集中在介绍和分析一种新兴的学习范式——星操作（Star Operation），这是一种通过元素级乘法融合不同子空间特征的方法，通过元素级乘法（类似于“星”形符号的乘法操作）将不同子空间的特征进行融合，从而在多个研究领域中展现出出色的性能和效率。星操作在自然语言处理（NLP）和计算机视觉（CV）等多个领域中都得到了成功应用。例如，在自然语言处理中，Monarch Mixer、Mamba、Hyena Hierarchy和GLU等模型都采用了星操作；在计算机视觉中，FocalNet、HorNet和VAN等模型也利用了星操作进行特征融合。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/139712515

2024-06-17

Vision-LSTM（ViL）实战：使用Vision-LSTM（ViL）实现图像分类任务

Vision-LSTM（ViL）架构的核心是xLSTM块。每个xLSTM块都包含一个输入门、一个遗忘门、一个输出门和一个内部记忆单元。与传统的LSTM相比，xLSTM引入了指数门控机制，使得模型能够更好地处理长序列数据。同时，xLSTM采用可并行化的矩阵内存结构，提高了模型的计算效率。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/139582259

2024-06-11

MobileNetV4实战：使用MobileNetV4实现图像分类任务

MobileNetV4，作为新一代移动设备神经网络架构，凭借其创新的通用倒置瓶颈UIB块和Mobile MQA注意力块，实现了计算效率和运行速度的显著提升。该架构通过精炼的神经架构搜索NAS方法，创建了多个卓越性能的移动设备模型。新型知识蒸馏技术进一步提高了模型准确性，而Mobile MQA块相较于传统多头注意力，在移动加速器上实现了显著的推理加速。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/139452661

2024-06-09

EfficientVMamba实战：使用 EfficientVMamba实现图像分类任务

作者研究了轻量级模型设计的新方法，通过引入视觉状态空间模型（SSM）以提高效率和性能。提出了一种名为EcientVMamba的高效模型变体，结合选择性扫描和有效跳跃采样，同时利用全局和局部表示特征。EcientVMamba在多种视觉任务中取得了具有竞争力的结果，并降低了计算复杂度。文章还探讨了SSMs在视觉任务中的应用，并指出现有轻量级模型在保持全局表示能力方面的挑战。本文使用EcientVMamba模型实现图像分类任务，模型选择最小的EcientVMamba_T，在植物幼苗分类任务ACC达到了93%+，达到了ViM的水平。。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/137253836

2024-04-02

TransNext-Demo.zip

2024-03-16

Hiera-MAE-Demo.zip

https://wanghao.blog.csdn.net/article/details/136443023?spm=1001.2014.3001.5502

2024-03-05

YoloV8改进策略：CoordConv给卷积加上坐标，从而使其具备了空间感知能力.zip

2024-02-21

MogaNet实战：使用MogaNet实现图像分类任务

作者多阶博弈论交互这一全新视角探索了现代卷积神经网络的表示能力。这种交互反映了不同尺度上下文中变量间的相互作用效果。提出了一种新的纯卷积神经网络架构族，称为MogaNet。MogaNet具有出色的可扩展性，在ImageNet和其他多种典型视觉基准测试中，与最先进的模型相比，其参数使用更高效，且具有竞争力的性能。具体来说，MogaNet在ImageNet上实现了80.0%和87.8%的Top-1准确率，分别使用了5.2M和181M参数，优于ParC-Net-S和ConvNeXt-L，同时节省了59%的浮点运算和17M的参数。源代码可在GitHub上(https://github.com/Westlake-AI/MogaNet)获取。文章链接：https://wanghao.blog.csdn.net/article/details/136102061?spm=1001.2014.3001.5502

2024-02-12

YoloV8改进-三元注意力，小参数大能力，即插即用，涨点自如

注意力机制在计算机视觉领域得到了广泛的研究和应用，利用构建通道或空间位置之间的依赖关系的能力，有效地应用于各种计算机视觉任务。本文研究了轻量级但有效的注意力机制，并提出了一种新的计算注意力权重的方法——三元组注意力，通过一个三分支结构捕捉跨维度交互。对于输入张量，三元组注意力通过旋转操作和残差变换建立跨维度的依赖关系，并以极小的计算开销编码了跨通道和空间信息。这种方法既简单又高效，可以轻松地插入经典的主干网络中作为附加模块。在各种具有挑战性的任务中，如ImageNet-1k图像分类和MSCOCO和PASCAL VOC数据集上的目标检测，证明了该方法的有效性。此外，通过可视化检查GradCAM和GradCAM++结果，提供了对三元组注意力性能的深入见解。本文方法的实证评估支持了在计算注意力权重时捕捉跨维度依赖关系的重要性的直觉。

2024-02-05

Vim实战：使用Vim实现图像分类任务

Vim作为一种高效的视觉模型，具有计算和内存效率高、处理高分辨率图像能力强等优点。这使得Vim成为下一代视觉基础模型的理想选择。本文使用Vim模型实现图像分类任务，模型选择最小的vim_tiny_patch16_224_bimambav2_final_pool_mean_abs_pos_embed_rope_also_residual_with_cls_token（这个方法的名字比较长。。。。。），在植物幼苗分类任务ACC达到了93%+。文章链接： https://wanghao.blog.csdn.net/article/details/135921108?spm=1001.2014.3001.5502

2024-01-30

FlashInternImage实战：使用FlashInternImage实现图像分类任务

将DCNv3替换为DCNv4创建的FlashInternImage模型可实现高达80%的速度提升和进一步性能改进，无需其他修改。DCNv4在速度和效率上的优势，结合其在各种视觉任务中的稳健性能，使其成为未来视觉模型的潜在基础构建块。文章链接： https://wanghao.blog.csdn.net/article/details/135873073?spm=1001.2014.3001.5502

2024-01-27

UniRepLKNet实战：使用UniRepLKNet实现图像分类任务

大核卷积神经网络（ConvNets）近年来受到广泛关注，但仍存在两个关键问题需要进一步研究。首先，目前的大型卷积神经网络架构大多遵循传统卷积神经网络或Transformer的设计原则，而大核ConvNets的架构设计仍未得到充分解决。其次，尽管Transformer已在多种模态中占据主导地位，但仍需研究卷积神经网络是否也具备超越视觉领域的强大通用感知能力。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/135512795

2024-01-13

TransXNet实战：使用TransXNet实现图像分类任务

在ImageNet-1K图像分类任务中，TransXNet-T相比Swin-T在top-1准确率上提高了0.3%，同时计算成本更低。此外，TransXNet-S和TransXNet-B展示了出色的模型扩展性，分别实现了83.8%和84.6%的top-1准确率，且计算成本合理。此外，我们的网络架构在各种密集预测任务中展现出了强大的泛化能力，优于其他先进的网络结构，且计算成本更低。总之，D-Mixer和TransXNet作为一种高效且具有强大泛化能力的网络结构，为计算机视觉领域提供了新的解决方案。这篇文章使用TransXNet完成植物分类任务，模型采用transxnet_t向大家展示如何使用TransXNet。transxnet_t在这个数据集上实现了96+%的ACC

2023-12-19

Hiera实战：使用Hiera实现图像分类任务

现代层次视觉变换器在追求监督分类表现时增加了几个特定于视觉的组件。这些组件虽然带来了有效的准确性和吸引人的FLOP计数，但增加的复杂性实际上使这些变换器比普通ViT更快。作者认为这种额外的体积是不必要的。通过使用强大的视觉预训练任务(MAE)进行预训练，可以从最先进的多阶段视觉变换器中去除所有花里胡哨的东西，同时不会丢失准确性。在此过程中，作者创建了Hiera，这是一种极其简单的层次视觉变换器，它比以前的模型更准确，同时在推理和训练过程中都明显更快。在各种任务上评估了Hiera对于图像和视频识别的表现。代码和模型可以在https://github.com/facebookresearch/hiera上获得。这篇文章使用Hiera完成植物分类任务，模型采用hiera_tiny_224向大家展示如何使用Hiera。原文链接：https://wanghao.blog.csdn.net/article/details/134642935

2023-12-07

RevCol实战：使用RevCol实现图像分类任务

可逆柱状结构（RevCol）是一种网络结构，它受到GLOM（Global Columnar Memory）的启发。RevCol由N个子网络（或称为列）组成，每个子网络的结构和功能都是相同的。这种结构可以有效地解决信息崩溃的问题，通过在前面的列中添加额外的监督，以保持特征和输入图像之间的互信息。此外，RevCol可以逐渐解耦语义和低级信息，从而提取和利用任务相关信息来进一步提高性能。在实现上，对于中间监督，采用了加权求和的方式将两个损失合并，对于所有变体的RevCol，通过实验确定将监督头添加到特定的列中。这篇文章使用RevCol完成植物分类任务，模型采用revcol_tiny向大家展示如何使用RevCol。revcol_tiny在这个数据集上实现了96+%的ACC，

2023-11-25

Sgformer实战：使用Sgformer实现图像分类任务

2023-09-11

nougat的权重文件

nougat权重文件

2023-09-05

定时任务库的详解与魅力应用：探索schedule的无尽可能性.pdf

定时任务库的详解与魅力应用：探索schedule的无尽可能性

2023-08-30

FastVIT实战：使用FastVIT实现图像分类

第一步执行makedata.py 创建训练集和验证集第二步执行train.py训练第三步执行export_model.py 导出模型第四步执行test.py 测试非常简单，适合初学者

2023-08-21

DERT：论文详细翻译

2023-08-15

VGGNet剪枝实战：使用VGGNet训练、稀疏训练、剪枝、微调等，剪枝出只有3M的模型

在BN层网络中加入稀疏因子，训练使得BN层稀疏化，对稀疏训练的后的模型中所有BN层权重进行统计排序，获取指定保留BN层数量即取得排序后权重阈值thres。遍历模型中的BN层权重，制作各层mask（权重>thres值为1，权重<thres值为0）。剪枝操作，根据各层的mask构建新模型结构（各层保留的通道数），获取BN层权重mask非零值的索引，非零索引对应的原始conv层、BN层、linear层各通道的权重、偏置等值赋值给新模型各层。加载剪枝后模型，进行fine-tune。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/132054977

2023-08-07

EMO实战：使用EMO实现图像分类任务

2023-07-31

MobileViG实战：使用MobileViG实现图像分类任务

2023-07-17

FasterViT实战：使用FasterViT实现图像分类任务

2023-07-10

pytorch-CNN网络汇总.zip

pytorch_CNN网络汇总

2023-07-04

InceptionNext实战：使用InceptionNext实现图像分类任务

论文翻译：https://wanghao.blog.csdn.net/article/details/131347001?spm=1001.2014.3001.5502 官方源码：https://github.com/sail-sg/inceptionnext 这是一篇来自颜水成团队的论文。作者提出InceptionNext，将大核深度卷积分解为沿通道维度的四个平行分支，即小方形核、两个正交带核和一个单位映射。通过这种新的Inception深度卷积，构建了一系列网络，不仅享有高吞吐量，而且保持有竞争力的性能。例如，InceptionNeXt-T实现了比convnext - t高1.6倍的训练吞吐量，并在ImageNet- 1K上实现了0.2%的top-1精度提高。 https://wanghao.blog.csdn.net/article/details/131387184?spm=1001.2014.3001.5502

2023-06-26

CloFormer实战：使用CloFormer实现图像分类任务

2023-06-13

VanillaNet实战：使用VanillaNet实现图像分类

VanillaNet实战：使用VanillaNet实现图像分类论文翻译：https://blog.csdn.net/m0_47867638/article/details/131057152 官方源码：https://github.com/huawei-noah/VanillaNet VanillaNet是华为在2023年发布的一种极简风格的CNN网络，采用了最普通的CNN网络，却达到了很好的效果。 ![在这里插入图片描述](https://img-blog.csdnimg.cn/68817ad3e0f544b59d6b517834dcb672.png) 这篇文章使用VanillaNet完成植物分类任务，模型采用VanillaNet10向大家展示如何使用VanillaNet。由于没有预训练模型，VanillaNet10在这个数据集上实现了87%的ACC。 https://blog.csdn.net/m0_47867638/article/details/131216849?spm=1001.2014.3001.5502

2023-06-13

BiFormer实战：使用BiFormer实现图像分类任务

2023-05-03

SeaFormer实战：使用SeaFormer实现图像分类任务

SeaFormer是一个轻量级的Transformers模型，最小的SeaFormer_T只有6M大小。设计了一种具有压缩轴向和细节增强的注意力模块，使其能够更好的在移动端应用。通过这篇文章能让你学到：如何使用数据增强，包括transforms的增强、CutOut、MixUp、CutMix等增强手段？如何实现SeaFormer模型实现训练？如何使用pytorch自带混合精度？如何使用梯度裁剪防止梯度爆炸？如何使用DP多显卡训练？如何绘制loss和acc曲线？如何生成val的测评报告？如何编写测试脚本测试测试集？如何使用余弦退火策略调整学习率？如何使用AverageMeter类统计ACC和loss等自定义变量？如何理解和统计ACC1和ACC5？如何使用EMA？如果使用Grad-CAM 实现热力图可视化？原文链接：https://blog.csdn.net/m0_47867638/article/details/130440291?spm=1001.2014.3001.5501

2023-04-29

InternImageNet实战：使用InternImageNet实现图像分类任务

2023-04-03

FasterNet实战：使用FasterNet实现图像分类任务

FasterNet全新的神经网络家族，在多个处理平台上运行速度更快，精度更高，优于MobileVit等网络，基于新提出新的Partial卷积(PConv)，大型网络FasterNet-L达到了83.5%的top-1精度，与Swin-B相当，同时在GPU上具有更高推断吞吐量，以及在CPU上节省42%的计算时间。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/129723967

2023-03-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人