- 博客(173)
- 收藏
- 关注
原创 PINN × KAN 联动成功!可解释物理建模新范式轻松拿捏SCI一区Top
摘要:物理信息神经网络(PINN)因MLP的"谱偏差"问题在多尺度建模中存在局限。近期研究通过引入Kolmogorov-Arnold网络(KAN)取得突破:混合并行KAN-MLP架构(HPKM-PINN)采用动态权重平衡机制,在典型PDE求解中相对误差降低2个数量级;KAN信息神经网络(KINN)利用B样条基函数特性,有效处理异质材料和逆问题。这些方法在航空航天等对可解释性要求高的领域展现潜力,但复杂边界问题中的性能仍有提升空间。相关研究为物理建模提供了新思路,11篇前沿成果的整理为理论
2025-06-06 11:05:02
716
原创 想发顶刊?特征工程这些热门方向你必须知道!(特征提取+特征选择+特征融合+......)
特征工程正推动机器学习进入"知识增强"新阶段。针对高维复杂数据,研究提出三大创新方法:FSFC算法结合功能主成分和自适应DAL算法,实现多变量纵向数据的高效特征选择和分类;CVOCA加速器通过合成波长技术进行复杂值特征提取,计算速度显著提升;EchoVideo模型利用多模态特征融合模块IITF,实现文本引导的身份保持视频生成。这些方法在工业预测、遥感分析和视频生成等领域展现出强大潜力,揭示了特征工程在强化智能系统表征能力方面的关键作用。
2025-06-05 11:05:26
604
原创 CVPR 2025 | 港科大 提出MultiGO:单图重建逼真3D人体,精度超越所有SOTA!
本文针对从单目图像重建3D着衣人体这一研究任务展开探讨。由于单视图输入存在固有歧义性,现有方法多借助预训练的SMPL(-X)估计模型或生成模型为人体重建提供辅助信息。然而,这些方法仅能捕捉人体的整体几何结构,却忽略了特定的几何细节,进而导致骨骼重建不准确、关节位置错误以及衣物褶皱不清晰等问题。为解决上述问题,本文提出了一种多层次几何学习框架。骨骼层增强模块关节层增强策略以及褶皱层细化模块。
2025-06-04 11:36:01
826
原创 顶会最爱的注意力机制,我整理了2025最新魔改方案,高效涨点!
在人工智能领域,注意力机制模拟人类“选择性关注”的认知能力,使模型能够聚焦关键信息,从而提升任务表现,在计算机视觉、自然语言处理等方向展现出巨大潜力。传统CNN与RNN在建模长距离依赖方面存在局限,而注意力机制通过“动态权重分配”有效增强特征表达能力,成为Transformer及其变体的核心思想。当前研究正致力于解决其计算效率、局部与全局信息平衡、多模态融合等挑战,推动注意力机制向更轻量、更具泛化能力的方向发展。理解其内在逻辑,有助于把握深度学习的发展脉络,并加速实际应用落地。
2025-06-03 12:01:42
742
原创 改进Transformer就能入选 CVPR!这份人人都能用的魔改Transformer创新点,学到就是赚到!
摘要:Transformer架构在AI领域应用广泛,但其注意力机制的高计算复杂度限制了长序列处理效率。本文精选5种高效Transformer改进方案:1)ACWI-Former融合小波变换与自适应注意力机制;2)MambaVision混合Mamba与Transformer模块;3)HyperKAN基于KAN定理重构网络层;4)Spiking Resformer结合脉冲神经网络与自注意力;5)太阳能预测模型利用Transformer处理多维度时序数据。这些方案通过算法创新与架构优化,在视觉、时序分析等任务中实
2025-05-28 11:36:01
626
原创 2025年强化学习依然会是重点研究方向!登上《Nature》正刊!
强化学习技术正加速革新,在自动驾驶、机器人控制等领域展现强大决策能力。该领域呈现三大趋势:1)通用化发展,如Dreamer算法实现150+任务通用决策;2)效率提升,RLHF成为工业界焦点;3)多智能体协同演进,在5G网络等场景释放价值。前沿研究包括:Nature论文提出的第三代Dreamer算法、AAAI论文的序列奖励建模方法、样本效率优化的DeepSeek-R1模型,以及5G负载均衡的多智能体框架。这些突破推动RL与神经科学、边缘计算等交叉创新,为研究者提供丰富机遇。(149字)
2025-05-27 14:05:15
977
原创 高效特征提取之道!“注意力+多尺度卷积”这组模型搭配你必须掌握!助你抢发Nature
计算机视觉领域正聚焦多尺度特征提取与注意力机制融合的研究。主流方法通过并行多尺寸卷积核(1×1至5×5)捕获不同粒度特征,并结合通道/空间注意力动态加权关键信息,显著提升图像识别性能。最新研究体现在三个方面:1)多尺度卷积增强局部特征多样性;2)混合注意力机制实现全局-局部特征优化;3)轻量化架构设计(如MobileNet基模型)。典型应用包括小样本分类(CA-EGNN算法)、路面缺陷检测(MANet网络)等场景,在保持精度的同时降低计算成本。当前12篇顶会论文显示,该方向正向多分支优化、Transform
2025-05-26 11:48:54
544
原创 何恺明团队新作,MeanFlow:无需预训练、无需蒸馏、不搞课程学习,即可完成生成!
何恺明团队提出了一种名为MeanFlow的单步图像生成框架,通过引入平均速度的概念来表征流场,显著提升了一步生成模型的性能。MeanFlow框架基于平均速度与瞬时速度之间的恒等式,设计了自洽的神经网络训练机制,无需预训练、蒸馏或课程学习。实验结果表明,在ImageNet 256×256数据集上,MeanFlow通过单次函数评估(1-NFE)实现了3.43的FID值,显著优于现有的一步扩散/流模型,并大幅缩小了一步模型与多步模型之间的性能差距。该研究为生成模型提供了新的理论视角,具有广泛的适用性和可扩展性。
2025-05-23 11:38:48
971
原创 顶会青睐,2025年好发论文的方向——多模态特征融合!
多模态特征融合是人工智能领域的关键技术,旨在整合文本、图像、语音等不同模态的数据,以挖掘深层关联并提升模型性能。早期方法依赖简单拼接,难以处理模态间的巨大差异,而深度学习虽能实现动态交互,却面临信息冗余与模态特性模糊的挑战。技术演进从单任务适配走向多层次交互,多模态大模型(MLLMs)通过分层融合显著提升了生成与推理能力,为内容创作、智能交互等领域带来新突破。本文提供了12篇多模态特征融合相关论文和代码,涵盖顶刊顶会研究成果,为研究与实践提供参考。其中,EchoVideo模型通过多模态特征融合模块IITF和
2025-05-22 14:18:29
718
原创 CVPR 2025 | 清华华科大联手!INP-Former刷新工业检测天花板,单图秒级检测异常!
该研究提出了一种名为INP-Former的新型异常检测方法,旨在解决现有方法依赖训练集正常参考导致的对齐难题。研究者观察到,即使在异常图像中也存在有价值的正常信息,且这些信息与异常同属同一图像,可能更易于对齐。基于此,INP-Former直接从测试图像中提取内在正常原型(INPs),而非依赖训练集的外部正常性。具体而言,该方法通过INP提取器对正常标记进行线性组合以表示INPs,并引入INP一致性损失确保INPs准确表征测试图像的正常性。
2025-05-21 11:25:28
784
原创 重大突破!港大&字节:DanceGRPO,首个统一视觉生成的强化学习框架发布!
本文介绍了 DanceGRPO,这是首个将群体相对策略优化(GRPO)适配到视觉生成范式的统一框架,实现了跨两种生成范式(扩散模型和整流流)、三项任务(文本到图像、文本到视频、图像到视频)、四种基础模型(Stable Diffusion、HunyuanVideo、FLUX、SkyReels-I2V)和五种奖励模型(图像 / 视频美学、文本 - 图像对齐、视频运动质量和二元奖励)的单一强化学习算法。DanceGRPO 是首个能够在不同生成范式、任务、基础模型和奖励模型之间无缝适配的基于 RL 的统一框架。
2025-05-20 11:10:48
930
原创 创新点!贝叶斯优化、CNN与LSTM结合,实现更准预测、更快效率、更高性能!
在能源与环境领域,时空数据预测面临特征解析与参数调优的双重挑战。CNN-LSTM混合模型通过卷积神经网络(CNN)提取空间特征,长短期记忆网络(LSTM)捕捉时序依赖,实现深度建模。然而,混合模型的超参数调优复杂,传统方法效率低且易陷局部最优。贝叶斯优化通过概率模型与采集函数,对超参数空间进行高效全局搜索,以有限迭代逼近最优解,显著降低调优成本。结合贝叶斯优化的CNN-LSTM模型,既能通过分层结构解析复杂数据的时空规律,又能提升参数配置效率,兼顾精度与效能。这一组合为高维动态系统的预测需求提供了新方案,增
2025-05-19 11:15:42
1170
原创 视觉Transformer(ViT ):它凭什么超越CNN,看懂这篇文章你就什么都不缺了!
视觉Transformer(ViT)在计算机视觉领域取得了显著进展,通过自注意力机制建模全局依赖,广泛应用于图像生成和视频理解等任务。然而,早期ViT在密集预测任务如语义分割和实例分割中表现不佳,主要因局部细节建模和多尺度特征能力不足。为此,研究者提出了多种改进方案,包括构建CNN与Transformer的混合架构、引入多尺度融合与双向交互机制,以及优化预训练策略与模型压缩技术。这些改进显著提升了ViT在医疗影像分析和自动驾驶等场景中的应用效果。本文还介绍了两种前沿改进方法:ViT-CoMer和AIQViT
2025-05-16 11:49:21
821
原创 CVPR 2025 | CNN:我又活过来了!港大 OverLoCK 重塑即插即用视觉Backbone网络,性能碾压传统模型!
现代卷积神经网络(ConvNets)常采用金字塔结构,忽略了人类视觉系统中自上而下注意力机制这一仿生原理。本文提出的OverLoCK是首个集成该机制的纯卷积骨干网络架构,它通过Base-Net、Overview-Net和Focus-Net三个协同子网络实现“先概览、后细看”的功能。同时,论文提出上下文混合动态卷积(ContMix),能有效建模长距离依赖关系并保留局部归纳偏差。
2025-05-15 11:16:24
794
原创 2025顶刊聚焦:物理信息深度学习新成果,频繁亮相于《Nature》等权威期刊
物理信息深度学习(PINNs)作为科研前沿热点,通过将物理定律嵌入深度学习模型,显著提升了求解复杂偏微分方程的能力,减少了对大量实验数据的依赖,并在材料科学、生物医学、气候建模等领域取得广泛应用。本文整理了近一年内20篇PINN领域的创新论文,涵盖从仿射非线性系统控制到多相场模拟、无袖血压估计等多个研究方向。这些研究通过优化训练策略、改进网络架构、引入自适应网格优化和动态修正机制等创新方法,提升了模型的效率和准确性。论文链接和开源代码可供参考,助力科研人员紧跟前沿动态。
2025-05-14 11:50:10
1384
原创 解锁Nature发文小Tips:LSTM、CNN与Attention的创新融合之路
近期,多篇LSTM+CNN+Attention主题论文发表在Nature上,成为一个极具前景的研究方向,在各大顶会、顶刊上都涌现了不少成果。传统预测模型在处理复杂数据和捕捉长期依赖关系时存在局限,难以满足日益增长的高精度预测需求,这促使研究人员不断探索新的技术手段。深度学习的蓬勃发展为解决这类问题带来了新契机。其中,LSTM、CNN和Attention机制展现出独特优势。LSTM擅长处理时间序列数据,能有效捕捉长期依赖信息,解决梯度消失和爆炸问题。
2025-05-13 11:46:57
754
原创 ICLR 2025 | 天大×腾讯开源COME方案,5行代码让模型告别“过度自信”,实现TTA鲁棒性飞跃!
机器学习模型必须不断自我调整,以适应开放世界中新颖的数据分布。作为主要原则,熵最小化(EM)已被证明是现有测试时适应(TTA)方法中简单而有效的基础。然而,其致命的局限性(即过度自信)往往会导致模型崩溃。针对这一问题,研究人员提出保守最小化熵(COME),这是一种简单的、可直接替代传统EM的方法,能够很好地解决上述局限性。本质上,COME在TTA过程中通过对模型预测的狄利克雷先验分布进行表征,显式地对不确定性进行建模。通过这样做,COME自然地对模型进行正则化,使其在不可靠样本上倾向于保守的置信度。
2025-05-12 15:17:21
890
原创 顶刊有望了!频域结合PINN,发高分SCI就在你股掌之间!
频域与物理信息神经网络(PINN)的结合为求解复杂物理问题提供了新思路。PINN通过将物理方程融入神经网络损失函数,无需网格即可求解偏微分方程,但存在训练效率低、精度有限等问题。频域分析通过离散傅里叶变换将方程转化到频域,降低维度,提升求解效率。这种结合在流体力学、传热学、风场预测等领域展现出巨大潜力。例如,频域PINN(FD-PINN)在三维风场预测中,通过整合频域信息,显著提升了预测精度,减少了对测量点的依赖,并有效解决了传统模型的数据不足问题。此外,FD-PINN在求解Burgers方程等线性偏微分方
2025-05-09 11:11:36
492
原创 深度揭秘MCP(Model Context Protocol):从概念到实战的终极使用排旨南,附超详细示例代码
MCP(Model Context Protocol)的出现,标志着AI与外部工具和数据交互朝着标准化迈出了重要一步。MCP的本质:是一个统一的协议标准,类似于AI世界的“USB-C”接口,实现了AI模型与各类数据源、工具的一致连接。MCP的价值:解决了传统function call的平台依赖等问题,提供了更统一、开放、安全、灵活的工具调用机制,让用户和开发者都能从中受益。使用与开发:普通用户可以借助丰富的现成工具轻松使用MCP;开发者则可以依据清晰的架构和SDK,开发出各种强大的MCP Server。
2025-05-08 11:29:32
1306
原创 顶会手拿把掐罢了!全局注意力+局部注意力,训练成本仅为原版的8.3%,效果显著!
注意力机制创新思路:融合局部与全局视角,突破传统优化瓶颈!传统注意力机制的改进多依赖堆叠层数,导致创新乏力、性能提升受限。单一结构难以兼顾全局语义与局部细节,成为模型发展的瓶颈。而结合局部与全局注意力,能有效融合两者优势,显著提升模型表现。以 Flash 模型为例,通过巧妙设计局部-全局混合注意力机制,在保持高性能的同时,训练成本仅为原版的 8.3% ,效果突出。这种融合策略不仅提升了计算效率和建模能力,更为模型设计打开了更大的创新空间。
2025-05-07 11:01:30
486
原创 想发顶会?KAN用于图像处理,效果异常的好!
近期,图像与视频处理再度成为研究热点,相关理论与应用层出不穷,投稿热度持续上升。如果你正在为论文选题发愁,不妨试试这个新思路:用KAN进行图像处理。KAN凭借其可学习的激活函数和灵活的架构,能够根据图像特征自适应调整,精准捕捉复杂模式,显著提升处理效率与性能。更令人欣喜的是,借助预训练KAN模型或在特定数据集上微调,即可快速构建高效图像处理系统,无需从头训练,大大节省时间和资源。该方法已成功应用于图像分类、目标检测、语义分割等多个任务,展现出强大潜力。
2025-05-06 11:37:01
768
原创 手绘图秒变科研图,真的后悔我到现在才知道!
而且,你还能在已有图表上添加文本、连接性等属性,轻松打造更专业的图表。就算你只画个简单图形样式,它也能利用内置模型,生成类似的专业图表。我还给大家准备了4种非常好用的科研绘图工具,里面的绘图模板非常丰富,并且都能一键使用!更厉害的是,绘制的手绘卡通形象,也能一键转化为严谨样式。有了它,专业图表制作还不是手到擒来!只要上传或手绘出草图,它就能自动生成TeX代码,输出高质量科研图表。今天给大家介绍这个被我用包浆了的科研绘图工具。如果大家找不到的话可以自取哦~免费分享!全部工具需要的同学看文末!
2025-04-30 11:19:02
263
原创 一不小心又发了篇CCF-A:机器学习+组合优化,一看就是真正的版本答案!
提出可折叠MILP的数学定义,描述使GNN失效的问题结构特征建立不可折叠 MILP类,证明其GNN可表示性。
2025-04-29 11:34:36
618
原创 英伟达华人团队发布「描述一切」,3B参数模型对决GPT-4o,拿下7个基准SOTA!
为解决视觉语言模型为图像和视频特定区域生成详细准确描述的难题,本文提出Describe Anything Model (DAM)。该模型通过焦点提示和局部视觉骨干网络,保留局部细节与全局上下文,实现多粒度区域图像和视频字幕生成。针对高质量数据稀缺问题,设计基于半监督学习的数据管道(DLC-SDP),利用分割数据集和无标签网络图像生成优质数据。同时,引入DLC-Bench基准,基于预定义属性评估模型,避免依赖参考字幕的弊端。实验显示,DAM在7个基准测试中达到新的最先进水平,有效提升了详细局部字幕生成的性能。
2025-04-28 11:00:30
753
1
原创 多模态大模型痛点全解析!这两篇论文硬核出击!
多模态大语言模型(MLLMs)是当前AI领域的重要研究方向。这类模型突破了传统语言模型仅依赖文本的局限,融合文本、图像、音频等多种模态,使交互更自然、应用场景更广泛。例如,在智能客服中,它能结合语音与文字精准理解用户需求;在智能写作中,可根据图片生成适配文案,展现出强大的潜力。然而,多模态大语言模型的发展也面临诸多挑战。高质量多模态数据稀缺是一个关键问题,现有数据质量参差不齐,标注难度大、成本高,导致训练数据不足,限制了模型效果和场景适应性。
2025-04-27 11:38:22
866
原创 图像融合魔改创新方案,遥感影像、医学影像领域全部通吃!真全领域发文小能手
在处理复杂图像数据和提升图像质量时,图像融合技术无疑是一个更优的选择。这是因为图像融合能够整合来自不同图像源的信息,从而生成比单一图像更具信息量、更全面且更高质量的图像数据。这项技术不仅能有效减少数据冗余,还能显著增强图像的细节表现和清晰度,为后续的目标检测、识别与分析提供更精准的支持。目前,图像融合方法已经在遥感影像处理、医学图像分析等领域取得了显著成果。然而,这一领域仍然面临诸多挑战。为了进一步探索更高效的特征融合方法并实现更好的效果,研究者们提出了许多创新性的改进方案。
2025-04-25 11:07:04
809
原创 要做深度学习,但代码水平很烂怎么办?
这里给大家分享一下收集的463篇神经网络以及相关变体的论文代码,以及深度学习领域一些可复现的论文代码,都是经典热文的方向,大家可以选择自己想要了解的网络和方向进行学习。他基于pytorch去做深度学习,弄了详细的教学课程,学会这个之后,对于想进行改深度学习代码的同学,也准备了一份改代码的教程。这个教程整体上对于用pytorch搭建了一个完整的流程,写了一个明确易懂的说明,很清晰告诉你每一步要做什么,并有具体的解释说明,对小白非常友好。找到一个适合速通党的喂饭教程,喂到嘴边了,怎么也学会了。
2025-04-24 11:49:52
274
原创 「全球首个自回归视频生成大模型」,清华特奖得主团队 Sand AI 携 MAGI-1 颠覆视频生成!模型权重、代码100%开源
就在昨天,的创业公司Sand AI推出的MAGI-1大模型以开源之姿重磅入场,成为视频生成领域的新晋焦点!随着短视频平台崛起与影视制作智能化转型,传统视频生成技术如基于规则的动画系统和早期GAN模型,已难以满足多样化场景需求。而基于Transformer与扩散模型的新一代技术,虽带来革新希望,却仍面临长序列计算复杂度高、生成内容时序混乱等挑战。随着AIGC应用向影视制作、虚拟主播、游戏开发等领域渗透,对视频生成模型的实时性、可控性和内容质量提出更高要求。
2025-04-23 11:25:19
834
原创 特征提取太6了!高效涨点!17种深度学习特征提取改进方法全面汇总
为了帮助大家更高效地选择适合的特征提取方法,快速提升模型效果,或者为寻找研究方向提供灵感,我精心整理了17种前沿的改进方法,并附上了每种方法的原文和源码。这些方法涵盖了多个技术流派,包括基于卷积神经网络(CNN)的方法、基于Transformer的方法、基于patch的方法以及基于图神经网络(GNN)的方法等,内容全面且实用。特征提取作为人工智能领域的一项关键技术。尤其是随着深度学习的兴起,这一领域发生了翻天覆地的变化,传统的手工设计特征方法逐渐被智能化、自适应化的提取方式所取代,各种创新改进层出不穷。
2025-04-22 11:42:54
782
原创 多尺度注意力:Nature中科院一区?还不是手到擒来!!
今天要给大家分享一个极具潜力的创新点 ——,凭借其显著的涨点效果与强大的启发性,近来在学术界热度持续飙升。在目标检测领域,多尺度特征融合技术发挥着关键作用。将浅层网络细腻的细节特征,与深层网络富含语义的特征相结合,让小目标和遮挡目标无所遁形,显著提升检测性能。医学影像分割领域亦是如此,借助多尺度特征融合,能够精准捕捉病灶区域形态的多样性以及边界的模糊性,极大提高分割精度,为医疗诊断提供有力支持。不过,当下这一领域仍存在诸多挑战。
2025-04-21 11:25:49
579
原创 CVPR 2025 | 何恺明联手Yann LeCun,仅用9行代码就实现无需归一化的Transformer!
Transformer已经提出很久,但是针对于Transformer结构上的改进一直在进行。近期何恺明、Yann LeCun联手发表的论文提出Transformer架构可以彻底舍去LN层,**仅用9行代码就实现动态双曲正切、无需归一化的Transformer!**这点可以看出,直到今天针对于Transformer结构的改进仍然具有创新点可探究。针对Transformer各方面的改进仍是一个不错的研究方向。我整理的有关的论文将帮助大家增加论文创新点有帮助。全部论文+开源代码需要的同学看文末!
2025-04-17 12:11:42
527
原创 有口皆碑!LSTM+PINN新架构,让顶会论文比发朋友圈还简单!
在人工智能与科学研究的交叉前沿,正成为破解复杂系统建模难题的关键技术。在应对复杂挑战时,研究者通过融合PINN的物理建模与LSTM的时序分析能力,开创了跨领域解决方案。两者虽聚焦不同领域,却共享核心优势:将PINN的物理机理建模能力与LSTM的动态数据处理优势相结合,既保留理论严谨性,又增强数据驱动的灵活性。这种跨学科方法论突破了单一模型的局限,推动复杂系统建模从依赖经验或纯数据驱动,转向“物理+数据”的智能融合范式,为多领域难题提供了可迁移的解决方案。
2025-04-16 11:22:25
797
原创 2025年还在用KAN网络的也是神人了...
针对PINNs中二次惩罚函数优化时惩罚因子膨胀的问题,提出用增强拉格朗日函数重构损失函数,将惩罚因子和拉格朗日乘子设为可学习参数,避免惩罚因子无限扩张,提高模型优化稳定性。:通过多个基准实验对比,AL-PKAN模型在数值解码准确性上表现优异,相比其他基于PINNs的方法,预测精度平均提高一到两个数量级,且能有效平衡不同约束,减少约束违反程度。:将KAN融入PINNs框架,利用KAN可将多元函数分解为一元激活函数的特性,有效提取适合样条插值的信号分量,提升模型的非线性拟合能力和可解释性。
2025-04-15 11:26:52
840
原创 今天给大家推荐一个发小论文很不错的方向:时空特征融合!
今天给大家安利一个非常值得尝试的小论文研究方向——时空特征融合!这是一个在学术界备受关注的热门领域,也是提升模型性能和预测精度的关键技术之一。通过将空间维度和时间维度的信息有机结合,时空特征融合不仅可以显著提高模型的预测能力与泛化效果,还能为我们提供更全面的数据洞察,同时通过高效的计算方法降低模型训练的复杂度和计算开销。这种方法在许多领域都展现了强大的应用潜力,尤其是在遥感图像处理、视频分析以及其他需要处理时空数据的任务中,表现尤为突出。
2025-04-14 11:08:39
832
原创 频域革命来了!傅里叶变换+时间序列分析引爆顶会顶刊!
近年来,"傅里叶变换+时间序列"的跨领域融合在NeurIPS、ICLR等顶级学术会议上引发了广泛关注。这一研究范式通过快速傅里叶变换(FFT)将原始时间序列数据映射到频域空间,从而实现趋势项、周期项和噪声分量的有效分离,为后续建模提供了具有物理意义的特征表示。与传统的时域建模方法相比,这种组合展现出三大显著优势:频域特征提取能够显著增强模型对复杂周期模式的捕捉能力,在预测任务中大幅降低误差;残差频段重构机制提高了模型对突变信号的敏感性;基于FFT的频域稀疏化处理显著提升了时序模型的训练效率。
2025-04-11 16:28:36
1027
原创 CNN已经过时?别怕,Mamba赋予CNN新生和创新点,刷新SOTA!
CNN已经过时了吗?CNN的优势是不错的局部特征提取能力,但是缺少全局建模能力是CNN更致命的缺陷,而Mamba高效的全局建模能力是弥补CNN这个缺陷的好伙伴。因此CNN + Mamba成为了计算机视觉领域一个不错的创新点。我精心整理的9篇CNN + Mamba的论文将为大家提供更全面的模型融合创新思路~全部论文+开源代码需要的同学看文末!
2025-04-10 11:22:07
1033
原创 YOLO已经悄悄更迭到v12!掌握新套路,发现新捷径,轻松拿下顶会!
YOLO系列作为单阶段目标检测的奠基性框架,通过"分而治之"的网格化预测机制,在自动驾驶感知、工业质检等领域持续着刷新精度与速度的前沿。其技术内核历经YOLOv3的残差骨干网、YOLOv5的自适应锚框,到YOLOv8的可编程梯度传播的范式跃迁,再到YOLOv10的双分支掩码建模实现NMS-Free设计。近期,。面向工业4.0的刚需,该领域正突破多模态感知瓶颈,未来研究或将攻克动态稀疏感知,解决脉冲神经网络适配等理论-工程交叉难题。本文精心挑选,为大家提供创新的思路,有需要的同学可以自取~
2025-04-09 11:26:28
830
原创 当Mamba介入遥感图像,势必会引爆顶会!这对王者组合,11个全开源idea,帮你你无痛发会议!
一方面,Mamba相关的研究不算太卷;另一方面,Mamba强大的全局建模能力和高效的计算效率,完美切合遥感图像领域计算效率、长距离建模、多时相分析等方面的需求。因此,在众多对实时性要求高的场景(比如城市规划、国防安全等)中,Mamba+遥感图像的优势巨大,它的落地前景自然广阔。相对的,关于它的研究成果也逐渐增多,不少高质量新成果陆续发表,比如顶刊TGRS上的ChangeMamba。如果大家感兴趣,趁这方向还处于低饱和状态,抓紧上车。
2025-04-08 12:01:12
412
原创 DeepSeek联合清华,携强化学习(RL)与大语言模型(LLM)强势来袭!AI世界或将“改朝换代”?
就在刚刚,发布的最新论文正在 AI 领域逐渐升温!在人工智能领域,已然成为创新焦点,开启了充满无限可能的新征程。RL能够基于环境反馈不断优化决策,LLM则擅长对语言进行深度理解与精准生成,二者相辅相成,有望推动AI技术实现重大飞跃。当前,不过,在诸多领域获取LLM准确奖励信号仍是一大挑战,尤其是在难以验证的问题或缺乏人工规则的场景下。
2025-04-07 12:12:36
844
原创 复活CNN!港大 CVPR 2025 高分论文,助力卷积神经网络效率暴涨还省显存!
在深度学习蓬勃发展的当下,卷积神经网络视觉基础模型正不断拓展着视觉处理领域的边界。这些模型如同精密的视觉感知引擎,深度挖掘图像、视频中的关键信息,在安防监控、自动驾驶、医疗影像分析等诸多领域发挥着不可替代的作用。其中港大研究人员这篇入选CVPR 2025的高分论文,提出新型纯CNN架构OverLoCK借鉴人类视觉系统“先概览后细察”的运作模式,创新性地采用深度阶段分解策略(DDS)与上下文混合动态卷积(ContMix)。
2025-04-02 11:35:05
1051
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人