VisionTransformer改进（7）：集成ASPP模块增强多尺度特征提取能力

最新推荐文章于 2025-05-06 11:39:50 发布

点我头像干啥

最新推荐文章于 2025-05-06 11:39:50 发布

阅读量253

点赞数 9

分类专栏： ViT、svit图像分类网络改进文章标签：人工智能计算机视觉深度学习

本文链接：https://blog.csdn.net/2401_82355416/article/details/147702691

版权

ViT、svit图像分类网络改进专栏收录该内容

20 篇文章 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

1.介绍

本文将详细介绍一个改进的Vision Transformer (ViT)模型实现，该模型在标准的ViT架构中集成了ASPP (Atrous Spatial Pyramid Pooling)模块，以增强模型的多尺度特征提取能力。

代码概述

这段代码主要实现了两个核心部分：

ASPP模块：一个多尺度特征提取模块，最初用于语义分割任务
改进的ViT模型：在标准ViT的patch嵌入层后添加ASPP模块

ASPP模块详解

ASPP模块通过并行使用不同扩张率的空洞卷积和全局平均池化来捕获多尺度上下文信息。

class ASPP(nn.Module):
    def __init__(self, in_channels, out_channels=256, atrous_rates=[6, 12, 18]):
        super(ASPP, self).__init__()
        # 初始化代码...

模块组成

1×1卷积分支：
• 标准的1×1卷积，用于捕获局部特征

• 包含卷积层、批归一化和ReLU

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

点我头像干啥

关注关注

9
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

订阅专栏

探索AI人工智能领域计算机视觉的技术趋势预测

AI天才研究院

04-05

975

计算机视觉作为人工智能领域最重要的分支之一，近年来取得了突破性进展。系统梳理计算机视觉技术发展脉络深入分析核心算法原理和技术细节预测未来5-10年的技术发展趋势为从业者提供技术选型和发展方向参考本文涵盖计算机视觉的主要领域，包括图像分类、目标检测、图像分割、3D视觉等，但重点聚焦于深度学习时代的技术演进。背景介绍：建立基本认知框架核心概念与算法：深入技术细节实际应用案例：理论与实践结合未来趋势：前瞻性思考计算机视觉(Computer Vision)

基础知识补充

ydp15755423176的博客

12-21

516

浅谈弱监督学习（Weakly Supervised Learning）-CSDN博客2.2.3 弱监督学习半监督学习就是弱监督学习得一种，就是不完全监督学习。

参与评论您还未登录，请先登录后发表或查看评论

自然语言处理实战：用CRF打造高精度命名实体识别系统

Loving_enjoy的博客

05-03

1182

无论是想快速搭建一个可用的NER系统，还是希望深入理解概率图模型的精髓，CRF都是值得放入工具箱的利器。'prev_is_b-geo': prev_tag == 'B-GEO' # 假设prev_tag是前一个标签。('参观天安门', ['O', 'B-POI', 'I-POI', 'I-POI'])" —— 人工智能先驱吴恩达。- **BiLSTM-CRF**：经典组合，在CoNLL-2003达到91%的F1值。('北京市', ['B-GEO', 'I-GEO', 'I-GEO']),

解锁DeepSeek模型微调：从小白到高手的进阶之路

邓邓子的博客

05-05

1147

本文围绕 DeepSeek 模型微调展开系统阐述。首先介绍 DeepSeek 模型在 AI 领域的重要地位及其优势，点明微调对提升模型性能的关键意义。接着深入解析微调原理，涵盖迁移学习基础与参数更新机制。随后详细讲解数据准备、模型选择加载、微调训练实战等核心步骤，包括数据收集标注预处理、参数设置与策略选择。还通过实战案例展示微调全流程，并基于评估结果提出优化改进方法。最后对 DeepSeek 模型微调进行总结，展望其未来发展方向，为希望掌握 DeepSeek 模型微调技术的读者提供全面指导。

远光软件发布九天 AI 应用开发平台，加速企业研发效能跃升

YG_JT的博客

04-30

1115

4月25日，远光软件在“2025珠海软件产业年会暨AI技术赋能行业发展交流会”上以虚拟直播方式发布了远光九天AI应用开发平台。

存算一体架构下的新型AI加速范式：从Samsung HBM-PIM看近内存计算趋势

高效做AI，就上Aladdin! 同学们用得起的H卡算力平台。

05-01

1677

存算一体不是简单的技术改良，而是对计算本质的重新思考。当HBM-PIM将能效边界推向10 TFLOPS/W，我们正站在架构革命的临界点。这场变革的终极目标，是让计算回归数据本源——‌在比特诞生的地方处理比特‌。本文实验数据基于Samsung Aquabolt-XL HBM-PIM实测，更多技术细节请参考ISSCC 2023论文《A 1ynm 16Gb 4.8TFLOPS/W HBM-PIM with Bank-Level Programmable AI Engines》。

我让AI接管了浏览器！Browser Tools MCP教程：自动Debug+截屏+SEO分析

seeyouintokyo的博客

05-03

1443

小白友好，且效率翻倍

英伟达语音识别模型论文速读：Token-and-Duration Transducer（TDT）架构

weixin_52582710的博客

05-05

1048

论文提出的 TDT 模型通过在传统 Transducer 模型中加入显式的持续时间建模，在语音识别、语音翻译和口语理解等多个序列任务中均优于传统 Transducer 模型。TDT 模型不仅在准确率上表现相当或更好，而且在推理速度上显著提升，最高可达 2.82 倍加速。此外，TDT 模型在抗噪声和处理重复 token 方面也展现出更强的鲁棒性。未来的工作将致力于进一步提高 TDT 模型的计算效率和准确性，并开发高效的 TDT 模型束搜索算法。

操作系统级竞争开启：AI Agent 能否成为人形机器人爆发的奇点？

望获实时Linux系统

04-30

1485

本文深入探讨了在人形机器人产业从“机械执行”向“自主决策”跃迁的背景下，实时操作系统（RTOS）与AI Agent融合对突破物理世界响应极限的关键作用，重点分析了望获实时Linux等国产RTOS的技术优势及其在不同领域的应用前景，同时客观阐述了产业面临的挑战与机遇，旨在为相关领域的学术研究和产业发展提供参考与借鉴。

生产级RAG系统一些经验总结

yanqianglifei的专栏

05-01

1079

可能需要修剪或总结它们。一种常见方法是先检索，然后运行较小的语言模型或启发式算法，将每个检索到的文档总结为一段话，然后将这些摘要输入最终的语言模型。这有时被称为上下文压缩或自适应上下文。LlamaIndex等工具可以自动执行第二阶段，使用语言模型在最终答案之前将初始检索集压缩成更短的形式。仅在绝对需要时使用此方法，因为任何摘要都是额外的生成步骤，可能会引入自己的错误。随着2025年16k+标记模型的出现，如果适合，许多RAG系统尝试只提供原始文本，因为这保留了最大的细节。

Deepseek基础-api key申请及应用(java)、硅基流动api key申请及应用(dify)

简单记录

05-05

932

要识别的车票和发票图片。

大学之大：杜伦大学2025.5.4

sinat_34897952的博客

05-04

779

杜伦大学以其千年历史底蕴与现代创新精神，在保持学院制传统的同时，积极应对全球挑战。其优势学科覆盖人文、科学与商科，科研实力位居世界前列。未来，杜伦将继续深化可持续发展与数字化教育，巩固其作为全球顶尖研究型大学的地位，为学生提供兼具学术深度与实践价值的教育体验。

Free Draft Model！Lookahead Decoding加速大语言模型解码新路径

PAN_Andy的博客

05-04

1039

大语言模型（LLMs）在当今AI领域大放异彩，但其自回归解码方式锁死了生成效率。本文将为你解读一种全新的解码算法——Lookahead Decoding，它无需Draft Model就能实现投机采样，加速LLM解码，在多项任务中实现显著提速，为大语言模型的应用带来新突破，快来一探究竟！

【第四十三周】文献阅读：Vul-RAG：通过知识级 RAG 增强基于 LLM 的漏洞检测

qq_30043925的博客

05-04

758

本周阅读了一篇将RAG和网安领域相结合的论文：Vul-RAG。Vul-RAG的核心目标是通过结合大语言模型（LLM）和知识检索增强生成（RAG）技术，解决现有漏洞检测方法在区分具有高相似性的漏洞代码和正确代码时的局限性。论文的工作流程分为三个阶段：第一阶段，先对离线漏洞知识库进行构建。从现有的CVE（通用漏洞披露）实例中提取多维度的漏洞知识，包括功能语义、漏洞原因和修复方案。这些知识通过LLM生成并抽象化，形成一个结构化的知识库。第二阶段，对在线漏洞知识进行检索。

Windows11下本地化部署AI开发环境（Dify+Ollama）

supersolon的专栏

04-30

671

本次实践希望在Windows环境下本地化部署AI开发环境，通过Ollama下载运行模型，通过Dify搭建管理AI应用。

【DeepMLF】具有可学习标记的多模态语言模型，用于情感分析中的深度融合

weixin_45962681的博客

05-01

774

基于Transformer架构论文[26]，我们简要概述了其架构，特别是本文中使用的预规范仅编码器和仅解码器[58]设计。我们的演示保持了一个抽象级别，以便它可以封装Transformer变体，特别是注意力机制[59]，规范化和前馈组件[60]中的不同风格。典型的编码器层设计由一个多头自注意（SA）模块和一个前馈（FFW）模块组成[26]。

人工智能数学基础（五）：概率论

2302_80961196的博客

04-30

1918

通过本文的学习，希望大家对概率论在人工智能中的应用有了更深入的理解。在实际操作中，多进行代码练习，可以更好地掌握这些数学工具，为人工智能的学习和实践打下坚实的基础。条件概率是指在事件 B 发生的条件下，事件 A 发生的概率，记为 P(A|B)。：某疾病的发病率为 0.1%，检测该疾病的实验准确率为 99%（即患者检测为阳性的概率为 99%，非患者检测为阴性的概率为 99%）。：计算某地成年人身高服从均值为 170cm，标准差为 10cm 的正态分布，求身高在 160cm 到 180cm 之间的概率。

基于开源链动2+1模式AI智能名片S2B2C商城小程序的个性化与小众化消费社群构建研究

专注MarTech应用研究与实施方案

05-01

1510

在个性化与小众化消费浪潮下，传统规模化生产模式面临解构，消费者需求从“功能满足”转向“价值认同”。本文提出以开源链动2+1模式AI智能名片S2B2C商城小程序重构消费社群生态，通过区块链存证、动态激励、AI内容引擎三大技术模块，实现从“流量收割”到“价值共生”的范式转换。实证数据显示，该模式可使社群用户LTV（生命周期价值）提升4.2倍，内容互动率增长310%，供应链响应速度缩短75%，为新消费时代提供可量化的社群运营解决方案。关键词：开源链动2+1模式；AI智能名片；S2B2C商城小程序；个性化消费；

广东省人工智能大模型备案信息公布，详细解析大模型备案