AI浩

分享人工智能知识，包括：计算机视觉、NLP以及机器学习等领域。注重基础与实践，尽最大的努力让每个初学者看懂学会。

原创 error: subprocess-exited-with-error【已解决】

错误和文件找不到的问题。关键是确保安装所有构建依赖并预先构建扩展模块。如果不行可以从下面的方式中找解决方法。这些步骤应该能解决您遇到的。

2025-06-06 19:30:00 118

原创【Block总结】DBlock，结合膨胀空间注意模块（Di-SpAM）和频域模块Gated-FFN|即插即用|CVPR2025

标题: DarkIR: Robust Low-Light Image Restoration作者: Daniel Feijoo, Juan C. Benito, Alvaro Garcia, Marcos Conde论文链接：https://arxiv.org/pdf/2412.13443GitHub链接：https://github.com/cidautai/DarkIR。

2025-06-06 19:00:00 704

原创【Block总结】EBlock，快速傅里叶变换（FFT）增强输入图像的幅度|即插即用|CVPR2025

2025-06-06 13:06:19 400

原创实现基于Yolo的异常聚集算法

基于YOLO检测算法实现“异常聚集”检测是一个很实用的应用场景，比如人群过度聚集、车辆拥堵、特定物品（如垃圾、危险物）堆积等。。bboxclass_idconfidence这是判断“异常聚集”的核心。利用上一步得到的目标位置信息，分析它们的空间分布。

2025-06-05 21:45:00 864 1

原创 build op model failed, result = 500002[FUNC:ReportInnerError][FILE:log_inner.cpp][LINE:145]

安装缺少的第三方库，执行命令.

2025-06-03 22:00:00 221

原创 SyntaxError: Non-UTF-8 code starting with ‘\xb1‘ in file /root/clip_demo.py on line 9, but no encodi

这个错误表示您的 Python 文件包含非 UTF-8 编码的字符（可能是中文字符或其他特殊字符），但没有在文件开头声明编码格式。根据 Python 的 PEP 263 规范，您需要在文件开头添加编码声明。在您的 Python 文件（

2025-06-03 22:00:00 204 1

原创 [Set][Options]OpCompileProcessor init failed![FUNC:ReportInnerError][FILE:log_inner.cpp][LIN

安装attrs，执行命令。

2025-06-03 21:45:00 123

原创 ImportError: libGL.so.1: cannot open shared object file: No such file or directory

安装缺失的图形库 (推荐)

2025-06-03 21:30:00 198

原创【Block总结】LRSA，局部区域自注意力|即插即用

本文提出了一种新颖的轻量级图像超分辨率网络，称为内容感知令牌聚合网络（CATANet）。该网络旨在解决基于Transformer的方法在高空间分辨率下的计算复杂度问题。CATANet通过高效的内容感知令牌聚合模块（CATA）来捕捉长距离依赖关系，同时保持高推理速度。

2025-06-02 20:08:47 690

原创【Block总结】TAB，令牌聚合块|融合组内自注意力（IASA）和组间交叉注意力（IRCA）|即插即用

2025-06-01 07:36:46 524

原创 CATANet：面向轻量级图像超分辨率的高效内容感知令牌聚合方法

基于Transformer的方法在图像超分辨率（SR）等底层视觉任务中展现出了令人印象深刻的性能。然而，其计算复杂度随空间分辨率呈二次方增长。一系列研究试图通过将低分辨率（LR）图像划分为局部窗口、轴向条纹或膨胀窗口来解决这一问题。超分辨率（SR）通常利用图像的冗余性进行重建，而这种冗余性不仅存在于局部区域，也存在于远距离区域。然而，这些方法将注意力计算限制在内容无关的局部区域，直接限制了注意力机制捕捉远距离依赖关系的能力。

2025-06-01 06:24:20 973

原创【Block总结】Dynamic Tanh (DyT)|即插即用|何凯明和Yann LeCun署名

Dynamic Tanh (DyT) 是一种简单但革命性的技术，挑战了归一化层在深度学习中的传统地位。它通过轻量化的设计和高效的实现，显著提升了Transformer模型的训练和推理效率，同时保持甚至超越了归一化模型的性能。DyT的提出为深度学习模型的设计提供了新的思路，尤其适合资源敏感型场景和大规模模型的优化。else:return x# 定义输入张量大小（Batch、Channel、Height、Wight）

2025-05-31 17:01:18 97

原创 AttributeError: Can‘t pickle local object ‘PreTrainedModel.enable_input_require_grads.＜locals＞.make_

在使用LLama Factory做sft训练的时候遇到了这个问题。

2025-05-30 19:30:00 175

原创 DeepSeekMath：突破开放式语言模型中数学推理能力的极限

由于数学推理具有复杂且结构化的特性，这对语言模型构成了重大挑战。在本文中，我们介绍了 DeepSeekMath 7B 模型，该模型在 DeepSeek-Coder-Base-v1.5 7B 模型的基础上，使用从 Common Crawl 获取的 1200 亿个与数学相关的标记，以及自然语言和代码数据继续进行预训练。在不依赖外部工具包和投票技术的情况下，DeepSeekMath 7B 在竞赛级 MATH 基准测试中取得了 51.7% 的优异成绩，接近 Gemini-Ultra 和 GPT-4 的性能水平。通过

2025-05-29 20:30:00 1044

原创 ImportError: libblas.so.3: cannot open shared object file: No such file or directory

系统未安装该库或版本不匹配会导致导入失败。错误，需确保系统已安装 BLAS 库。PyTorch 依赖 BLAS 库进行矩阵运算，而。

2025-05-28 21:00:00 234

原创 git clone 提速

指定了 depth 1 的时候，就是只保留了最新的入口，这样自然快很多，代码也是完整的，缺点是历史入口没下载，切不到历史 commit。git上的项目时间久了。

2025-05-26 19:30:00 412

原创 BLIP3-o：一系列完全开源的统一多模态模型——架构、训练与数据集

在近期关于多模态模型的研究中，将图像理解与生成统一起来受到了越来越多的关注。尽管图像理解的设计选择已经得到了广泛研究，但对于具有图像生成功能的统一框架而言，其最优模型架构和训练方案仍有待进一步探索。鉴于自回归和扩散模型在高质量生成和可扩展性方面具有强大潜力，我们对它们在统一多模态环境中的使用进行了全面研究，重点关注图像表示、建模目标和训练策略。基于这些研究，我们提出了一种新方法，该方法采用扩散Transformer生成语义丰富的CLIP图像特征，这与传统的基于VAE的表示方法不同。

2025-05-24 16:06:23 1192 1

原创大模型Pre-Training实战解析：实现Qwen3增量预训练

大模型一般分三个阶段（现在有很多个阶段的，比如DeepSeek），首先要完成的是Pre-Training阶段。预训练是指在大量无标签数据上进行训练，使模型学习到一些基础的语言表示和知识。常见的预训练方法包括自回归语言模型（如GPT系列）、自编码器等。这些方法通过在大规模语料库上训练，使模型能够理解语言的语法、语义和上下文信息。这篇文章试图告诉大家如何去实现增量Pre-Training。

2025-05-22 20:26:10 738

原创 RuntimeError: Cannot find sufficient samples, consider increasing dataset size.

在使用LLaMA-Factory做增量PT预训练的时候，出现了上面的错误，原因是截断太大了，需要设置的小一些，如下图：

2025-05-21 18:44:26 212

原创用于红外小目标检测的风车形卷积与基于尺度的动态损失函数

近年来，基于卷积神经网络（CNN）的红外小目标检测方法取得了卓越的性能。然而，这些方法通常采用标准卷积，忽略了红外小目标像素分布的空间特性。因此，我们提出了一种新型的风车形卷积（PConv）来替代骨干网络下层的标准卷积。PConv 更好地契合了微弱小目标像素的高斯空间分布，增强了特征提取能力，显著增大了感受野，并且参数增加量极少。此外，虽然最近的损失函数结合了尺度损失和位置损失，但它们没有充分考虑这些损失在不同目标尺度下的敏感性差异，这限制了在微弱小目标上的检测性能。

2025-05-20 05:15:00 1562

原创 LSNet：见大观小

论文链接：https://arxiv.org/pdf/2503.23135视觉网络设计，包括卷积神经网络（Convolutional Neural Networks，CNNs）和视觉Transformer（Vision Transformers，ViTs），显著推动了计算机视觉领域的发展。然而，它们复杂的计算给实际应用部署带来了挑战，尤其是在实时应用中。为解决这一问题，研究人员探索了各种轻量级且高效的网络设计。不过，现有的轻量级模型主要依赖自注意力机制和卷积进行令牌混合（token mixing）。

2025-05-19 15:24:24 1084

原创 OverLoCK实战：使用OverLoCK实现图像分类任务（二）

本文介绍了如何使用OverLoCK框架进行图像分类任务的训练和测试。首先，通过导入必要的库文件，并设置多GPU训练的环境变量。接着，通过设置随机种子确保实验的可重复性。随后，定义了训练过程中的全局参数，包括学习率、批次大小、训练轮数等，并创建了保存模型的文件夹。文中还详细解释了参数的含义及其对训练的影响，如EMA（指数移动平均）的使用及其衰减率的作用。最后，介绍了图像预处理和数据增强的步骤，包括随机旋转、高斯模糊、颜色抖动等操作，以确保模型的鲁棒性。通过这些步骤，用户可以有效地训练和测试图像分类模型。

2025-05-19 07:15:29 1349

原创计算机网络-同等学力计算机综合真题及答案

计算机网络-同等学力计算机综合真题及答案2003 年网络第二部分计算机网络（共 30 分）（因大纲变动因此 2004 年真题仅附真题，不作解析。一、填空题（共 10 分）1 、(1 分)使用 10Mb/s 以太网,已知集线器的端口数为 N,共享媒体集线器的总量为 10Mb/s；交换式以太网的总容量为 (N*10)Mb/s。2 、(1 分)使用覆盖模型将 ATM与 IP 结合起来，模型中把 ATM看成数据链路层层协议，在它上面运行 IP 协议。

2025-05-03 20:14:48 1505 1

原创软件工程国考

关系类型强度生命周期依赖UML符号示例泛化强继承关系空心三角箭头动物 → 猫关联中无实线学生 ↔ 课程聚合弱整体部分独立空心菱形 + 实线学校 ◇─ 教师组合强整体部分依赖实心菱形 + 实线公司 ◆─ 部门依赖弱临时使用虚线箭头订单 ╌╌> 支付服务S 答：(1)分支覆盖又称判定覆盖：使得程序中每个判断的取真分支和取假分支至少经历一次，即判断的真假均曾被满足。

2025-05-01 21:40:04 1061 4

原创 Qwen3：思深，行速

今天，我们宣布推出 Qwen3，这是 Qwen 系列大型语言模型的最新成员。我们的旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中，与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型相比，表现出极具竞争力的结果。此外，小型 MoE 模型 Qwen3-30B-A3B 的激活参数数量是 QwQ-32B 的 10%，表现更胜一筹，甚至像 Qwen3-4B 这样的小模型也能匹敌 Qwen2.5-72B-Instruct 的性能。

2025-04-29 05:52:52 1300

原创 python 线程池顺序执行

根据需求选择最合适的方法，通常方案二（顺序获取结果）能满足大多数场景。方案一：强制单线程（伪顺序执行）在Python中，线程池（方案二：按提交顺序获取结果。方案三：任务间依赖控制。方案四：队列顺序消费。

2025-04-28 21:00:00 258

原创英伟达最新AI「描述一切」模型：细节捕捉狂魔，连奶牛臀部斑块都能精准捕捉！

例如，当模型试图放大观察图像中的咖啡杯时，可能丢失杯身花纹或忽略其所在的环境（如户外咖啡桌）。DAM的诞生，正是为了解决这些痛点。它像一把「智能放大镜」，用户只需框选、点触或涂鸦指定区域，即可生成细腻到纹理、动作甚至神态的描述，还能根据需求调整描述的详略风格。这种设计让DAM的「观察力」远超传统模型：即使是图像边缘的微小物体（如窗台上的猫），它也能细致到「毛发柔软、耳朵微倾、阳光下眼睛呈琥珀色」。，仅3B参数却以「细节狂魔」的姿态碾压GPT-4o，成为首个能精准描述图像或视频中任意区域的AI神器。

2025-04-27 20:45:00 841

原创继百度接⼊DeepSeek,搜索开放平台也来了，流量薅起来！

#百度搜索开放平台 #百度AI开放计划 #mcp #mcpserver#create2025 #AI当AI应用如雨后春笋般涌现，开发者们却面临一个共同困境：“酒香也怕巷子深”。即便产品再创新，若无法触达用户，一切努力终将归零。而百度搜索最新推出的AI开放计划，正试图用“开放”二字撕开流量困局，为开发者铺就一条从技术到商业的“高速公路”。AI应⽤爆发时代，智能体、H5、⼩程序、APP等各种AI应⽤形态层出不穷，，但开发者们的焦虑却愈发明显：如何快速找到这些应⽤，如何发现和匹配最合适的应⽤来满⾜⽤户个性化的需

2025-04-25 18:13:44 1121 1

原创 2023 国考

最长链____，最长链个数____，最长反链长度______，极大元个数____，极小元个数____，最小元为____，最大元为____。答案：1000/3 = 333，1000/5 = 200，1000/3*5 = 66，333+200-66=467。C. 若已所谷，则施于人 D. 凡是施于人的都应该是已所欲。A. 只有已所欲，才能施于人 B. 除非已所欲，否则不施于人。，则 $P(A) \cap P(B) = $ （）已所不欲，勿施于人，不是逻辑推论（）的正整数角的个数（）

2025-04-24 20:45:00 685

原创 2021 国考

设：则“任何计算设备都可以求解某个问题”可以表达为：∀x(C(x)→∃y(P(y)∧S(x,y)))\forall x (C(x) \rightarrow \exists y (P(y) \land S(x, y)))∀x(C(x)→∃y(P(y)∧S(x,y)))解释：集合 ( A = {1, 2, 3, 4} ) 上的等价关系数目等于其不同划分方式的数量，即贝尔数 ( B_4 )。通过斯特林数（第二类）计算如下：斯特林数分解：贝尔数计算：B4=S(4,1)+S(4,2)+S(4,3)+S(4,4)

2025-04-22 20:07:39 869

原创 2024年国考

∀xPx→Qx（所有参加奥运会的运动员 ( x ) 必须获得资格）∃xPx∧¬Ax∀xPx→Qx∧∃yPy∧¬Ay二，选择题（10 分）

2025-04-19 18:46:10 1190 1

原创 2013 年同等学力人员申请硕士学位学科综合水平全国统一考试计算机科学与技术试卷

令 D(G)=\frac{1}{|V|} \sum_{v \in V} d(v) ，则用 D(G) 和 |V| 把 |E| 表示出来的表达式是 \qquad。对任意的 a, b \in Q ，定义二元运算 a \Delta b=(a \times b) / 2 ，则 Q 关于运算 \Delta 的单位元是 \qquad ，其中＂ \times ＂是有理数中通常的乘法运算。三，计算题（第 1 小题 3 分，第 2 小题 4 分，第 3 小题 6 分，共 13 分）

2025-04-19 07:14:35 290

原创 2019年计算机真题

等价关系的有序对个数每个划分块内的元素形成完全连接的等价类。{1,2}: (2^2 = 4) 个{3,4,5}: (3^2 = 9) 个{6,7}: (2^2 = 4) 个总计：(4 + 9 + 4 = 17)整除关系的有序对个数1整除所有数：(7) 对（包括自反）2整除2、4、6：(3) 对3整除3、6：(2) 对4、5、6、7仅自反：各(1) 对总计：(7 + 3 + 2 + 1 + 1 + 1 + 1 = 16)既对称又反对称的关系数目。

2025-04-12 18:22:55 602

原创【Block总结】DRDB，空洞残差密集块|即插即用

本文提出了一种深度信息辅助的双任务协作去雾框架，通过差异感知机制和交替优化策略，实现了去雾与深度估计的相互促进。实验表明，该方法在合成和真实数据上均达到先进水平，为单幅图像去雾提供了新思路。未来可探索更轻量化的网络设计及跨任务泛化能力。

2025-04-08 06:58:23 901 1

原创 2018年真题

P(x): x 是集合 A 的元素Q(x,y): x 是 y 的元素。

2025-04-07 20:50:38 881

原创 Meta Llama 4炸场！开源MoE模型登顶全球榜，单卡跑1000万token，价格打骨折

MoE架构革命：用20%算力干100%的活Llama 4首次引入MoE架构，每个token仅激活部分专家模块。例如Maverick的4000亿参数中，实际调用仅170亿，却能实现单卡运行的惊人效率。这种设计让模型像“智能路由器”，根据任务自动调度专家——写诗找文学专家，解方程找数学专家。

2025-04-07 19:00:00 902

原创【Block总结】HWAB，半小波注意力块|即插即用

2022年3月。

2025-04-06 19:25:30 560

原创【Block总结】ENLTransformerBlock，高效非局部变换器块|即插即用

Perspective+ Unet 通过引入双路径编码策略、高效非局部变换器模块和跨尺度空间集成器，显著提升了医学图像分割的性能。该模型在局部细节和全局上下文的融合上表现出色，适用于需要高精度分割的复杂医学图像处理任务。

2025-04-06 08:24:53 507

原创【Block总结】频域自适应空洞卷积FADC，即插即用

本论文提出了一种新的卷积方法——频率自适应空洞卷积（Frequency-Adaptive Dilated Convolution, FADC），旨在通过动态调整空洞率以适应输入数据的频率特性，从而克服传统固定空洞率卷积在频率响应方面的局限性。该方法在语义分割和目标检测任务中表现出显著的性能提升。

2025-04-06 04:00:00 842

原创【Block总结】PlainUSR的局部注意力，即插即用|ACCV2024

这些创新点旨在解决现有方法在实时性能和计算效率上的瓶颈，同时保持竞争性的图像重建质量。局部注意力机制通过引入区域重要性图和门控机制，能够在局部范围内实现高阶信息交互。这种设计使得模型能够更有效地捕捉局部细节，同时避免了传统全局注意力机制可能带来的高计算成本[4][5][6]。局部注意力机制的设计重点在于减少计算复杂度。相比全局注意力，局部注意力将加权求和的范围限制在特定窗口内，从而显著降低了计算量。这种方法特别适合实时超分辨率任务，能够在保持性能的同时实现低延迟[3][4][5]。

2025-04-05 22:06:44 588

MobileViG-基于图的稀疏注意移动视觉应用.pdf

论文翻译

2023-07-25

Vim实战：使用Vim实现图像分类任务

Vim作为一种高效的视觉模型，具有计算和内存效率高、处理高分辨率图像能力强等优点。这使得Vim成为下一代视觉基础模型的理想选择。本文使用Vim模型实现图像分类任务，模型选择最小的vim_tiny_patch16_224_bimambav2_final_pool_mean_abs_pos_embed_rope_also_residual_with_cls_token（这个方法的名字比较长。。。。。），在植物幼苗分类任务ACC达到了93%+。文章链接： https://wanghao.blog.csdn.net/article/details/135921108?spm=1001.2014.3001.5502

2024-01-30

Hiera-MAE-Demo.zip

https://wanghao.blog.csdn.net/article/details/136443023?spm=1001.2014.3001.5502

2024-03-05

EfficientVMamba实战：使用 EfficientVMamba实现图像分类任务

作者研究了轻量级模型设计的新方法，通过引入视觉状态空间模型（SSM）以提高效率和性能。提出了一种名为EcientVMamba的高效模型变体，结合选择性扫描和有效跳跃采样，同时利用全局和局部表示特征。EcientVMamba在多种视觉任务中取得了具有竞争力的结果，并降低了计算复杂度。文章还探讨了SSMs在视觉任务中的应用，并指出现有轻量级模型在保持全局表示能力方面的挑战。本文使用EcientVMamba模型实现图像分类任务，模型选择最小的EcientVMamba_T，在植物幼苗分类任务ACC达到了93%+，达到了ViM的水平。。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/137253836

2024-04-02

TransNext-Demo.zip

2024-03-16

YoloV8改进策略：CoordConv给卷积加上坐标，从而使其具备了空间感知能力.zip

2024-02-21

MogaNet实战：使用MogaNet实现图像分类任务

作者多阶博弈论交互这一全新视角探索了现代卷积神经网络的表示能力。这种交互反映了不同尺度上下文中变量间的相互作用效果。提出了一种新的纯卷积神经网络架构族，称为MogaNet。MogaNet具有出色的可扩展性，在ImageNet和其他多种典型视觉基准测试中，与最先进的模型相比，其参数使用更高效，且具有竞争力的性能。具体来说，MogaNet在ImageNet上实现了80.0%和87.8%的Top-1准确率，分别使用了5.2M和181M参数，优于ParC-Net-S和ConvNeXt-L，同时节省了59%的浮点运算和17M的参数。源代码可在GitHub上(https://github.com/Westlake-AI/MogaNet)获取。文章链接：https://wanghao.blog.csdn.net/article/details/136102061?spm=1001.2014.3001.5502

2024-02-12

YoloV8改进-三元注意力，小参数大能力，即插即用，涨点自如

注意力机制在计算机视觉领域得到了广泛的研究和应用，利用构建通道或空间位置之间的依赖关系的能力，有效地应用于各种计算机视觉任务。本文研究了轻量级但有效的注意力机制，并提出了一种新的计算注意力权重的方法——三元组注意力，通过一个三分支结构捕捉跨维度交互。对于输入张量，三元组注意力通过旋转操作和残差变换建立跨维度的依赖关系，并以极小的计算开销编码了跨通道和空间信息。这种方法既简单又高效，可以轻松地插入经典的主干网络中作为附加模块。在各种具有挑战性的任务中，如ImageNet-1k图像分类和MSCOCO和PASCAL VOC数据集上的目标检测，证明了该方法的有效性。此外，通过可视化检查GradCAM和GradCAM++结果，提供了对三元组注意力性能的深入见解。本文方法的实证评估支持了在计算注意力权重时捕捉跨维度依赖关系的重要性的直觉。

2024-02-05

FlashInternImage实战：使用FlashInternImage实现图像分类任务

将DCNv3替换为DCNv4创建的FlashInternImage模型可实现高达80%的速度提升和进一步性能改进，无需其他修改。DCNv4在速度和效率上的优势，结合其在各种视觉任务中的稳健性能，使其成为未来视觉模型的潜在基础构建块。文章链接： https://wanghao.blog.csdn.net/article/details/135873073?spm=1001.2014.3001.5502

2024-01-27

UniRepLKNet实战：使用UniRepLKNet实现图像分类任务

大核卷积神经网络（ConvNets）近年来受到广泛关注，但仍存在两个关键问题需要进一步研究。首先，目前的大型卷积神经网络架构大多遵循传统卷积神经网络或Transformer的设计原则，而大核ConvNets的架构设计仍未得到充分解决。其次，尽管Transformer已在多种模态中占据主导地位，但仍需研究卷积神经网络是否也具备超越视觉领域的强大通用感知能力。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/135512795

2024-01-13

TransXNet实战：使用TransXNet实现图像分类任务

在ImageNet-1K图像分类任务中，TransXNet-T相比Swin-T在top-1准确率上提高了0.3%，同时计算成本更低。此外，TransXNet-S和TransXNet-B展示了出色的模型扩展性，分别实现了83.8%和84.6%的top-1准确率，且计算成本合理。此外，我们的网络架构在各种密集预测任务中展现出了强大的泛化能力，优于其他先进的网络结构，且计算成本更低。总之，D-Mixer和TransXNet作为一种高效且具有强大泛化能力的网络结构，为计算机视觉领域提供了新的解决方案。这篇文章使用TransXNet完成植物分类任务，模型采用transxnet_t向大家展示如何使用TransXNet。transxnet_t在这个数据集上实现了96+%的ACC

2023-12-19

Hiera实战：使用Hiera实现图像分类任务

现代层次视觉变换器在追求监督分类表现时增加了几个特定于视觉的组件。这些组件虽然带来了有效的准确性和吸引人的FLOP计数，但增加的复杂性实际上使这些变换器比普通ViT更快。作者认为这种额外的体积是不必要的。通过使用强大的视觉预训练任务(MAE)进行预训练，可以从最先进的多阶段视觉变换器中去除所有花里胡哨的东西，同时不会丢失准确性。在此过程中，作者创建了Hiera，这是一种极其简单的层次视觉变换器，它比以前的模型更准确，同时在推理和训练过程中都明显更快。在各种任务上评估了Hiera对于图像和视频识别的表现。代码和模型可以在https://github.com/facebookresearch/hiera上获得。这篇文章使用Hiera完成植物分类任务，模型采用hiera_tiny_224向大家展示如何使用Hiera。原文链接：https://wanghao.blog.csdn.net/article/details/134642935

2023-12-07

RevCol实战：使用RevCol实现图像分类任务

可逆柱状结构（RevCol）是一种网络结构，它受到GLOM（Global Columnar Memory）的启发。RevCol由N个子网络（或称为列）组成，每个子网络的结构和功能都是相同的。这种结构可以有效地解决信息崩溃的问题，通过在前面的列中添加额外的监督，以保持特征和输入图像之间的互信息。此外，RevCol可以逐渐解耦语义和低级信息，从而提取和利用任务相关信息来进一步提高性能。在实现上，对于中间监督，采用了加权求和的方式将两个损失合并，对于所有变体的RevCol，通过实验确定将监督头添加到特定的列中。这篇文章使用RevCol完成植物分类任务，模型采用revcol_tiny向大家展示如何使用RevCol。revcol_tiny在这个数据集上实现了96+%的ACC，

2023-11-25

Sgformer实战：使用Sgformer实现图像分类任务

2023-09-11

nougat的权重文件

nougat权重文件

2023-09-05

定时任务库的详解与魅力应用：探索schedule的无尽可能性.pdf

定时任务库的详解与魅力应用：探索schedule的无尽可能性

2023-08-30

FastVIT实战：使用FastVIT实现图像分类

第一步执行makedata.py 创建训练集和验证集第二步执行train.py训练第三步执行export_model.py 导出模型第四步执行test.py 测试非常简单，适合初学者

2023-08-21

DERT：论文详细翻译

2023-08-15

VGGNet剪枝实战：使用VGGNet训练、稀疏训练、剪枝、微调等，剪枝出只有3M的模型

在BN层网络中加入稀疏因子，训练使得BN层稀疏化，对稀疏训练的后的模型中所有BN层权重进行统计排序，获取指定保留BN层数量即取得排序后权重阈值thres。遍历模型中的BN层权重，制作各层mask（权重>thres值为1，权重<thres值为0）。剪枝操作，根据各层的mask构建新模型结构（各层保留的通道数），获取BN层权重mask非零值的索引，非零索引对应的原始conv层、BN层、linear层各通道的权重、偏置等值赋值给新模型各层。加载剪枝后模型，进行fine-tune。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/132054977

2023-08-07

EMO实战：使用EMO实现图像分类任务

2023-07-31

OverLoCK实战：使用OverLoCK实现图像分类任务

OverLoCK是一种全新的卷积神经网络（ConvNet）架构，旨在模仿人类视觉系统中的“纵观全局-聚焦细节”（Overview-first-Look-Closely-next）双阶段认知机制。该架构通过引入自上而下的注意机制，结合动态卷积技术，显著提升了模型在图像分类、目标检测和语义分割等视觉任务中的性能。其核心设计包括深层分解策略（Deep-stage Decomposition Strategy, DDS）和上下文混合动态卷积（Context-Mixing Dynamic Convolution, ContMix），以有效建模长距离依赖关系，同时保留局部归纳偏差。实验表明，OverLoCK在多个基准任务中超越了现有的ConvNet和Transformer架构，同时显著降低了计算成本[3][4][9]。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/147011934

2025-05-19

SparX实战：使用SparX实现图像分类任务

SparX是一种新提出的稀疏跨层连接机制，旨在提升视觉Mamba和Transformer网络的性能。该论文由香港大学的俞益洲教授及其研究团队撰写，并将在AAAI 2025会议上发表。论文的主要目标是解决现有视觉模型在跨层特征聚合方面的不足，尤其是在计算复杂度较高的Mamba模型中[5][6][7]。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/145376426

2025-01-29

DFFormer实战：使用DFFormer实现图像分类

## 论文信息 **标题**: FFT-based Dynamic Token Mixer for Vision **论文链接**: https://arxiv.org/pdf/2303.03932 ## 创新点本论文提出了一种新的令牌混合器，称为**动态滤波器（Dynamic Filter）**，旨在解决多头自注意力（MHSA）模型在处理高分辨率图像时的计算复杂度问题。传统的MHSA模型在输入特征图的像素数量增加时，其计算复杂度呈二次增长，导致处理速度缓慢。通过引入基于快速傅里叶变换（FFT）的动态滤波器，论文展示了在保持全局操作能力的同时，显著降低计算复杂度的可能性。链接：https://wanghao.blog.csdn.net/article/details/145368717?spm=1001.2014.3001.5502

2025-01-27

CrossFormer实战：使用CrossFormer实现图像分类任务

CrossFormer是一种新型的视觉Transformer架构，旨在通过引入跨尺度注意力机制来提升计算机视觉任务的性能。该模型特别关注不同尺度特征之间的交互，解决了现有视觉Transformer在处理多尺度特征时的不足。链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/145055796?spm=1001.2014.3001.5501

2025-01-12

DilateFormer实战：使用DilateFormer实现图像分类任务

## 创新点 - **多尺度扩张注意力（MSDA）**：通过分析ViTs中全局注意力的斑块交互，发现注意力矩阵在浅层具有局部性和稀疏性。基于此，提出了MSDA，通过在周围稀疏选择的斑块中进行自注意力计算，同时捕获多尺度语义依赖。 - **滑动窗口扩张注意力（SWDA）**：作为MSDA的一部分，SWDA在局部邻域内执行自注意力，进一步利用感受野内的信息。 - **金字塔架构**：采用金字塔架构来发展DilateFormer模型，在浅层阶段堆叠MSDA以捕获低层信息，在深层阶段使用全局多头自注意力以建模高层信息。本文使用DilateFormer模型实现图像分类任务，模型选择dilateformer_tiny，在植物幼苗分类任务ACC达到了89%+。

2024-12-26

Yolo11s的Objects365预训练权重

Yolo11s的Objects365预训练权重，训练了10个epoch，可以用来做预训练模型。

2024-12-06

VOLO实战：使用VOLO实现图像分类任务

本文介绍了一种新颖的视觉前景器（VOLO）主干网络，通过提出前景注意力机制和构建两个阶段的架构，实现了在ImageNet分类任务上的卓越性能。同时，VOLO在语义分割任务上也表现出了出色的性能。VOLO的提出为视觉识别领域带来了新的突破和进展。本文使用VOLO模型实现图像分类任务，模型选择volo_d1，在植物幼苗分类任务ACC达到了85%+。

2024-11-25

DeBiFormer实战：使用DeBiFormer实现图像分类任务

本文介绍的DeBiFormer是一种专为图像分类和密集预测任务设计的新型分层视觉Transformer。通过提出可变形双级路由注意力（DBRA），优化了查询-键-值交互，自适应选择语义相关区域，实现了更高效和有意义的注意力。实验结果表明，DeBiFormer在多个计算机视觉任务上均表现出色，为设计灵活且语义感知的注意力机制提供了见解。本文使用DeBiFormer模型实现图像分类任务，模型选择debi_tiny，在植物幼苗分类任务ACC达到了82%+。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/142706712

2024-11-07

NextVit-Demo.zip

2024-10-04

EfficientFormer实战：使用EfficientFormerV2实现图像分类任务

EfficientFormerV2是一种通过重新思考ViT设计选择和引入细粒度联合搜索策略而开发出的新型移动视觉骨干网络。它结合了卷积和变换器的优势，通过一系列高效的设计改进和搜索方法，实现了在移动设备上既轻又快且保持高性能的目标。这一成果为在资源受限的硬件上有效部署视觉变换器模型提供了新的思路原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/142367223

2024-09-19

GCViT实战：使用GCViT实现图像分类任务

GC ViT（全局上下文视觉转换器）是一种创新的深度学习架构，旨在提升计算机视觉任务中的参数和计算效率。它通过将全局上下文自注意力模块与标准的局部自注意力相结合，有效地建模长程和短程空间交互，同时避免了传统方法中的昂贵操作，如计算注意力掩码或移动局部窗口。GC ViT解决了Vision Transformer（ViT）中归纳偏差缺失的问题，并通过引入改进的融合倒置残差块来增强性能。在多个视觉任务（如图像分类、目标检测和语义分割）中，GC ViT均取得了最先进的结果。原文链接：https://blog.csdn.net/m0_47867638/article/details/141654892

2024-09-02

CAS-ViT实战：使用CAS-ViT实现图像分类任务

CAS-ViT（Convolutional Additive Self-attention Vision Transformer）通过一系列创新，成功实现了计算与效率的平衡。其核心在于提出了一种新颖的加性相似度函数和卷积加性标记混合器（Convolutional Additive Token Mixer, CATM），这一设计显著降低了计算开销。原文链接：https://blog.csdn.net/m0_47867638/article/details/141404169

2024-08-22

GroupMamba实战：使用GroupMamba实现图像分类任务

状态空间模型（SSM）的最新进展展示了在具有次二次复杂性的长距离依赖建模中的有效性能。GroupMamba解决了将基于SSM的模型扩展到计算机视觉领域的挑战，特别是大型模型尺寸的不稳定性和低效性。GroupMamba在ImageNet-1K的图像分类、MS-COCO的目标检测和实例分割以及ADE2OK的语义分割方面，相比现有方法取得了更优的性能。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/140775861

2024-07-31

EfficientMod实战：使用EfficientMod实现图像分类任务

论文提出了一种名为“高效调制（EfficientMod）”的新型设计，旨在提升视觉网络在准确性和效率之间的权衡。作者重新审视了现有的调制机制，该机制通过卷积上下文建模和特征投影层处理输入，并通过逐元素乘法和多层感知机（MLP）块融合特征。为了进一步提升效率，作者设计了EfficientMod块，作为他们网络的基本构建块。 EfficientMod的优势在于其能够利用调制机制的卓越表示能力，同时通过简化设计来减少计算冗余和延迟。与传统的自注意力机制相比，EfficientMod的计算复杂度与图像大小呈线性关系，而不是与标记数量呈立方关系，这使得它在处理大规模图像时更加高效。此外，与现有的高效卷积网络如FocalNet和VAN相比，EfficientMod块更为简单，但保留了它们的主要优点，如使用大核卷积块进行上下文建模和通过调制来增强特征表示。 https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/140520113

2024-07-20

RDNet实战：使用RDNet实现图像分类任务

论文提出的模型主要基于对传统DenseNet架构的改进和复兴，通过一系列创新设计，旨在提升模型性能并优化其计算效率，提出了RDNet模型。该模型的主要特点和改进点： ### 1. 强调并优化连接操作（Concatenation）论文首先强调了DenseNet中连接操作（Concatenation）的重要性，并通过广泛的实验验证了连接操作在性能上能够超越传统的加法快捷连接（Additive Shortcut）。这一发现促使研究者们重新审视并优化DenseNet的连接机制。

2024-07-09

YoloV8改进策略-注意力篇-Block改进-附结构图-自研基于xLSTM的注意力

本文使用Vision-LSTM的xLSTM改进YoloV8的Bottleneck结构，增加自研的注意力机制，取得了不错的得分。如果大家想发顶会，或者比较好的期刊，可以优先考虑！包含完整代码和PDF文章

2024-07-01

YoloV8摔倒检测完整代码

YoloV8摔倒检测完整代码，包含代码和数据集！打开就可以使用！搜集了多个数据集。

2024-06-24

StarNet实战：使用StarNet实现图像分类任务

论文主要集中在介绍和分析一种新兴的学习范式——星操作（Star Operation），这是一种通过元素级乘法融合不同子空间特征的方法，通过元素级乘法（类似于“星”形符号的乘法操作）将不同子空间的特征进行融合，从而在多个研究领域中展现出出色的性能和效率。星操作在自然语言处理（NLP）和计算机视觉（CV）等多个领域中都得到了成功应用。例如，在自然语言处理中，Monarch Mixer、Mamba、Hyena Hierarchy和GLU等模型都采用了星操作；在计算机视觉中，FocalNet、HorNet和VAN等模型也利用了星操作进行特征融合。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/139712515

2024-06-17

Vision-LSTM（ViL）实战：使用Vision-LSTM（ViL）实现图像分类任务

Vision-LSTM（ViL）架构的核心是xLSTM块。每个xLSTM块都包含一个输入门、一个遗忘门、一个输出门和一个内部记忆单元。与传统的LSTM相比，xLSTM引入了指数门控机制，使得模型能够更好地处理长序列数据。同时，xLSTM采用可并行化的矩阵内存结构，提高了模型的计算效率。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/139582259

2024-06-11

MobileNetV4实战：使用MobileNetV4实现图像分类任务

MobileNetV4，作为新一代移动设备神经网络架构，凭借其创新的通用倒置瓶颈UIB块和Mobile MQA注意力块，实现了计算效率和运行速度的显著提升。该架构通过精炼的神经架构搜索NAS方法，创建了多个卓越性能的移动设备模型。新型知识蒸馏技术进一步提高了模型准确性，而Mobile MQA块相较于传统多头注意力，在移动加速器上实现了显著的推理加速。原文链接：https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/139452661

2024-06-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人