前沿速递AI-CSDN博客

原创 PINN × KAN 联动成功！可解释物理建模新范式轻松拿捏SCI一区Top

摘要：物理信息神经网络（PINN）因MLP的"谱偏差"问题在多尺度建模中存在局限。近期研究通过引入Kolmogorov-Arnold网络（KAN）取得突破：混合并行KAN-MLP架构（HPKM-PINN）采用动态权重平衡机制，在典型PDE求解中相对误差降低2个数量级；KAN信息神经网络（KINN）利用B样条基函数特性，有效处理异质材料和逆问题。这些方法在航空航天等对可解释性要求高的领域展现潜力，但复杂边界问题中的性能仍有提升空间。相关研究为物理建模提供了新思路，11篇前沿成果的整理为理论

2025-06-06 11:05:02 716

原创想发顶刊？特征工程这些热门方向你必须知道！（特征提取+特征选择+特征融合+......）

特征工程正推动机器学习进入"知识增强"新阶段。针对高维复杂数据，研究提出三大创新方法：FSFC算法结合功能主成分和自适应DAL算法，实现多变量纵向数据的高效特征选择和分类；CVOCA加速器通过合成波长技术进行复杂值特征提取，计算速度显著提升；EchoVideo模型利用多模态特征融合模块IITF，实现文本引导的身份保持视频生成。这些方法在工业预测、遥感分析和视频生成等领域展现出强大潜力，揭示了特征工程在强化智能系统表征能力方面的关键作用。

2025-06-05 11:05:26 604

原创 CVPR 2025 | 港科大提出MultiGO：单图重建逼真3D人体，精度超越所有SOTA！

本文针对从单目图像重建3D着衣人体这一研究任务展开探讨。由于单视图输入存在固有歧义性，现有方法多借助预训练的SMPL(-X)估计模型或生成模型为人体重建提供辅助信息。然而，这些方法仅能捕捉人体的整体几何结构，却忽略了特定的几何细节，进而导致骨骼重建不准确、关节位置错误以及衣物褶皱不清晰等问题。为解决上述问题，本文提出了一种多层次几何学习框架。骨骼层增强模块关节层增强策略以及褶皱层细化模块。

2025-06-04 11:36:01 826

原创顶会最爱的注意力机制，我整理了2025最新魔改方案，高效涨点！

在人工智能领域，注意力机制模拟人类“选择性关注”的认知能力，使模型能够聚焦关键信息，从而提升任务表现，在计算机视觉、自然语言处理等方向展现出巨大潜力。传统CNN与RNN在建模长距离依赖方面存在局限，而注意力机制通过“动态权重分配”有效增强特征表达能力，成为Transformer及其变体的核心思想。当前研究正致力于解决其计算效率、局部与全局信息平衡、多模态融合等挑战，推动注意力机制向更轻量、更具泛化能力的方向发展。理解其内在逻辑，有助于把握深度学习的发展脉络，并加速实际应用落地。

2025-06-03 12:01:42 742

原创改进Transformer就能入选 CVPR！这份人人都能用的魔改Transformer创新点，学到就是赚到！

摘要：Transformer架构在AI领域应用广泛，但其注意力机制的高计算复杂度限制了长序列处理效率。本文精选5种高效Transformer改进方案：1）ACWI-Former融合小波变换与自适应注意力机制；2）MambaVision混合Mamba与Transformer模块；3）HyperKAN基于KAN定理重构网络层；4）Spiking Resformer结合脉冲神经网络与自注意力；5）太阳能预测模型利用Transformer处理多维度时序数据。这些方案通过算法创新与架构优化，在视觉、时序分析等任务中实

2025-05-28 11:36:01 626

原创 2025年强化学习依然会是重点研究方向！登上《Nature》正刊！

强化学习技术正加速革新，在自动驾驶、机器人控制等领域展现强大决策能力。该领域呈现三大趋势：1)通用化发展，如Dreamer算法实现150+任务通用决策；2)效率提升，RLHF成为工业界焦点；3)多智能体协同演进，在5G网络等场景释放价值。前沿研究包括：Nature论文提出的第三代Dreamer算法、AAAI论文的序列奖励建模方法、样本效率优化的DeepSeek-R1模型，以及5G负载均衡的多智能体框架。这些突破推动RL与神经科学、边缘计算等交叉创新，为研究者提供丰富机遇。（149字）

2025-05-27 14:05:15 977

原创高效特征提取之道！“注意力+多尺度卷积”这组模型搭配你必须掌握！助你抢发Nature

计算机视觉领域正聚焦多尺度特征提取与注意力机制融合的研究。主流方法通过并行多尺寸卷积核（1×1至5×5）捕获不同粒度特征，并结合通道/空间注意力动态加权关键信息，显著提升图像识别性能。最新研究体现在三个方面：1）多尺度卷积增强局部特征多样性；2）混合注意力机制实现全局-局部特征优化；3）轻量化架构设计（如MobileNet基模型）。典型应用包括小样本分类（CA-EGNN算法）、路面缺陷检测（MANet网络）等场景，在保持精度的同时降低计算成本。当前12篇顶会论文显示，该方向正向多分支优化、Transform

2025-05-26 11:48:54 544

原创何恺明团队新作，MeanFlow：无需预训练、无需蒸馏、不搞课程学习，即可完成生成！

何恺明团队提出了一种名为MeanFlow的单步图像生成框架，通过引入平均速度的概念来表征流场，显著提升了一步生成模型的性能。MeanFlow框架基于平均速度与瞬时速度之间的恒等式，设计了自洽的神经网络训练机制，无需预训练、蒸馏或课程学习。实验结果表明，在ImageNet 256×256数据集上，MeanFlow通过单次函数评估（1-NFE）实现了3.43的FID值，显著优于现有的一步扩散/流模型，并大幅缩小了一步模型与多步模型之间的性能差距。该研究为生成模型提供了新的理论视角，具有广泛的适用性和可扩展性。

2025-05-23 11:38:48 971

原创顶会青睐，2025年好发论文的方向——多模态特征融合！

多模态特征融合是人工智能领域的关键技术，旨在整合文本、图像、语音等不同模态的数据，以挖掘深层关联并提升模型性能。早期方法依赖简单拼接，难以处理模态间的巨大差异，而深度学习虽能实现动态交互，却面临信息冗余与模态特性模糊的挑战。技术演进从单任务适配走向多层次交互，多模态大模型（MLLMs）通过分层融合显著提升了生成与推理能力，为内容创作、智能交互等领域带来新突破。本文提供了12篇多模态特征融合相关论文和代码，涵盖顶刊顶会研究成果，为研究与实践提供参考。其中，EchoVideo模型通过多模态特征融合模块IITF和

2025-05-22 14:18:29 718

原创 CVPR 2025 | 清华华科大联手！INP-Former刷新工业检测天花板，单图秒级检测异常！

该研究提出了一种名为INP-Former的新型异常检测方法，旨在解决现有方法依赖训练集正常参考导致的对齐难题。研究者观察到，即使在异常图像中也存在有价值的正常信息，且这些信息与异常同属同一图像，可能更易于对齐。基于此，INP-Former直接从测试图像中提取内在正常原型（INPs），而非依赖训练集的外部正常性。具体而言，该方法通过INP提取器对正常标记进行线性组合以表示INPs，并引入INP一致性损失确保INPs准确表征测试图像的正常性。

2025-05-21 11:25:28 784

原创重大突破！港大&字节：DanceGRPO，首个统一视觉生成的强化学习框架发布！

本文介绍了 DanceGRPO，这是首个将群体相对策略优化（GRPO）适配到视觉生成范式的统一框架，实现了跨两种生成范式（扩散模型和整流流）、三项任务（文本到图像、文本到视频、图像到视频）、四种基础模型（Stable Diffusion、HunyuanVideo、FLUX、SkyReels-I2V）和五种奖励模型（图像 / 视频美学、文本 - 图像对齐、视频运动质量和二元奖励）的单一强化学习算法。DanceGRPO 是首个能够在不同生成范式、任务、基础模型和奖励模型之间无缝适配的基于 RL 的统一框架。

2025-05-20 11:10:48 930

原创创新点！贝叶斯优化、CNN与LSTM结合，实现更准预测、更快效率、更高性能！

在能源与环境领域，时空数据预测面临特征解析与参数调优的双重挑战。CNN-LSTM混合模型通过卷积神经网络（CNN）提取空间特征，长短期记忆网络（LSTM）捕捉时序依赖，实现深度建模。然而，混合模型的超参数调优复杂，传统方法效率低且易陷局部最优。贝叶斯优化通过概率模型与采集函数，对超参数空间进行高效全局搜索，以有限迭代逼近最优解，显著降低调优成本。结合贝叶斯优化的CNN-LSTM模型，既能通过分层结构解析复杂数据的时空规律，又能提升参数配置效率，兼顾精度与效能。这一组合为高维动态系统的预测需求提供了新方案，增

2025-05-19 11:15:42 1170

原创视觉Transformer（ViT ）：它凭什么超越CNN，看懂这篇文章你就什么都不缺了！

视觉Transformer（ViT）在计算机视觉领域取得了显著进展，通过自注意力机制建模全局依赖，广泛应用于图像生成和视频理解等任务。然而，早期ViT在密集预测任务如语义分割和实例分割中表现不佳，主要因局部细节建模和多尺度特征能力不足。为此，研究者提出了多种改进方案，包括构建CNN与Transformer的混合架构、引入多尺度融合与双向交互机制，以及优化预训练策略与模型压缩技术。这些改进显著提升了ViT在医疗影像分析和自动驾驶等场景中的应用效果。本文还介绍了两种前沿改进方法：ViT-CoMer和AIQViT

2025-05-16 11:49:21 821

原创 CVPR 2025 | CNN：我又活过来了！港大 OverLoCK 重塑即插即用视觉Backbone网络，性能碾压传统模型！

现代卷积神经网络（ConvNets）常采用金字塔结构，忽略了人类视觉系统中自上而下注意力机制这一仿生原理。本文提出的OverLoCK是首个集成该机制的纯卷积骨干网络架构，它通过Base-Net、Overview-Net和Focus-Net三个协同子网络实现“先概览、后细看”的功能。同时，论文提出上下文混合动态卷积（ContMix），能有效建模长距离依赖关系并保留局部归纳偏差。

2025-05-15 11:16:24 794

原创 2025顶刊聚焦：物理信息深度学习新成果，频繁亮相于《Nature》等权威期刊

物理信息深度学习（PINNs）作为科研前沿热点，通过将物理定律嵌入深度学习模型，显著提升了求解复杂偏微分方程的能力，减少了对大量实验数据的依赖，并在材料科学、生物医学、气候建模等领域取得广泛应用。本文整理了近一年内20篇PINN领域的创新论文，涵盖从仿射非线性系统控制到多相场模拟、无袖血压估计等多个研究方向。这些研究通过优化训练策略、改进网络架构、引入自适应网格优化和动态修正机制等创新方法，提升了模型的效率和准确性。论文链接和开源代码可供参考，助力科研人员紧跟前沿动态。

2025-05-14 11:50:10 1384

原创解锁Nature发文小Tips：LSTM、CNN与Attention的创新融合之路

近期，多篇LSTM+CNN+Attention主题论文发表在Nature上，成为一个极具前景的研究方向，在各大顶会、顶刊上都涌现了不少成果。传统预测模型在处理复杂数据和捕捉长期依赖关系时存在局限，难以满足日益增长的高精度预测需求，这促使研究人员不断探索新的技术手段。深度学习的蓬勃发展为解决这类问题带来了新契机。其中，LSTM、CNN和Attention机制展现出独特优势。LSTM擅长处理时间序列数据，能有效捕捉长期依赖信息，解决梯度消失和爆炸问题。

2025-05-13 11:46:57 754

原创 ICLR 2025 | 天大×腾讯开源COME方案，5行代码让模型告别“过度自信”，实现TTA鲁棒性飞跃！

机器学习模型必须不断自我调整，以适应开放世界中新颖的数据分布。作为主要原则，熵最小化（EM）已被证明是现有测试时适应（TTA）方法中简单而有效的基础。然而，其致命的局限性（即过度自信）往往会导致模型崩溃。针对这一问题，研究人员提出保守最小化熵（COME），这是一种简单的、可直接替代传统EM的方法，能够很好地解决上述局限性。本质上，COME在TTA过程中通过对模型预测的狄利克雷先验分布进行表征，显式地对不确定性进行建模。通过这样做，COME自然地对模型进行正则化，使其在不可靠样本上倾向于保守的置信度。

2025-05-12 15:17:21 890

原创顶刊有望了！频域结合PINN，发高分SCI就在你股掌之间！

频域与物理信息神经网络（PINN）的结合为求解复杂物理问题提供了新思路。PINN通过将物理方程融入神经网络损失函数，无需网格即可求解偏微分方程，但存在训练效率低、精度有限等问题。频域分析通过离散傅里叶变换将方程转化到频域，降低维度，提升求解效率。这种结合在流体力学、传热学、风场预测等领域展现出巨大潜力。例如，频域PINN（FD-PINN）在三维风场预测中，通过整合频域信息，显著提升了预测精度，减少了对测量点的依赖，并有效解决了传统模型的数据不足问题。此外，FD-PINN在求解Burgers方程等线性偏微分方

2025-05-09 11:11:36 492

原创深度揭秘MCP（Model Context Protocol）：从概念到实战的终极使用排旨南，附超详细示例代码

MCP（Model Context Protocol）的出现，标志着AI与外部工具和数据交互朝着标准化迈出了重要一步。MCP的本质：是一个统一的协议标准，类似于AI世界的“USB-C”接口，实现了AI模型与各类数据源、工具的一致连接。MCP的价值：解决了传统function call的平台依赖等问题，提供了更统一、开放、安全、灵活的工具调用机制，让用户和开发者都能从中受益。使用与开发：普通用户可以借助丰富的现成工具轻松使用MCP；开发者则可以依据清晰的架构和SDK，开发出各种强大的MCP Server。

2025-05-08 11:29:32 1306

原创顶会手拿把掐罢了！全局注意力+局部注意力，训练成本仅为原版的8.3%，效果显著！

注意力机制创新思路：融合局部与全局视角，突破传统优化瓶颈！传统注意力机制的改进多依赖堆叠层数，导致创新乏力、性能提升受限。单一结构难以兼顾全局语义与局部细节，成为模型发展的瓶颈。而结合局部与全局注意力，能有效融合两者优势，显著提升模型表现。以 Flash 模型为例，通过巧妙设计局部-全局混合注意力机制，在保持高性能的同时，训练成本仅为原版的 8.3% ，效果突出。这种融合策略不仅提升了计算效率和建模能力，更为模型设计打开了更大的创新空间。

2025-05-07 11:01:30 486

原创想发顶会？KAN用于图像处理，效果异常的好！

近期，图像与视频处理再度成为研究热点，相关理论与应用层出不穷，投稿热度持续上升。如果你正在为论文选题发愁，不妨试试这个新思路：用KAN进行图像处理。KAN凭借其可学习的激活函数和灵活的架构，能够根据图像特征自适应调整，精准捕捉复杂模式，显著提升处理效率与性能。更令人欣喜的是，借助预训练KAN模型或在特定数据集上微调，即可快速构建高效图像处理系统，无需从头训练，大大节省时间和资源。该方法已成功应用于图像分类、目标检测、语义分割等多个任务，展现出强大潜力。

2025-05-06 11:37:01 768

原创手绘图秒变科研图，真的后悔我到现在才知道！

而且，你还能在已有图表上添加文本、连接性等属性，轻松打造更专业的图表。就算你只画个简单图形样式，它也能利用内置模型，生成类似的专业图表。我还给大家准备了4种非常好用的科研绘图工具，里面的绘图模板非常丰富，并且都能一键使用！更厉害的是，绘制的手绘卡通形象，也能一键转化为严谨样式。有了它，专业图表制作还不是手到擒来！只要上传或手绘出草图，它就能自动生成TeX代码，输出高质量科研图表。今天给大家介绍这个被我用包浆了的科研绘图工具。如果大家找不到的话可以自取哦~免费分享！全部工具需要的同学看文末！

2025-04-30 11:19:02 263

原创一不小心又发了篇CCF-A：机器学习+组合优化，一看就是真正的版本答案！

提出可折叠MILP的数学定义，描述使GNN失效的问题结构特征建立不可折叠 MILP类，证明其GNN可表示性。

2025-04-29 11:34:36 618

原创英伟达华人团队发布「描述一切」，3B参数模型对决GPT-4o，拿下7个基准SOTA！

为解决视觉语言模型为图像和视频特定区域生成详细准确描述的难题，本文提出Describe Anything Model (DAM)。该模型通过焦点提示和局部视觉骨干网络，保留局部细节与全局上下文，实现多粒度区域图像和视频字幕生成。针对高质量数据稀缺问题，设计基于半监督学习的数据管道（DLC-SDP），利用分割数据集和无标签网络图像生成优质数据。同时，引入DLC-Bench基准，基于预定义属性评估模型，避免依赖参考字幕的弊端。实验显示，DAM在7个基准测试中达到新的最先进水平，有效提升了详细局部字幕生成的性能。

2025-04-28 11:00:30 753 1

原创多模态大模型痛点全解析！这两篇论文硬核出击！

多模态大语言模型（MLLMs）是当前AI领域的重要研究方向。这类模型突破了传统语言模型仅依赖文本的局限，融合文本、图像、音频等多种模态，使交互更自然、应用场景更广泛。例如，在智能客服中，它能结合语音与文字精准理解用户需求；在智能写作中，可根据图片生成适配文案，展现出强大的潜力。然而，多模态大语言模型的发展也面临诸多挑战。高质量多模态数据稀缺是一个关键问题，现有数据质量参差不齐，标注难度大、成本高，导致训练数据不足，限制了模型效果和场景适应性。

2025-04-27 11:38:22 866

原创图像融合魔改创新方案，遥感影像、医学影像领域全部通吃！真全领域发文小能手

在处理复杂图像数据和提升图像质量时，图像融合技术无疑是一个更优的选择。这是因为图像融合能够整合来自不同图像源的信息，从而生成比单一图像更具信息量、更全面且更高质量的图像数据。这项技术不仅能有效减少数据冗余，还能显著增强图像的细节表现和清晰度，为后续的目标检测、识别与分析提供更精准的支持。目前，图像融合方法已经在遥感影像处理、医学图像分析等领域取得了显著成果。然而，这一领域仍然面临诸多挑战。为了进一步探索更高效的特征融合方法并实现更好的效果，研究者们提出了许多创新性的改进方案。

2025-04-25 11:07:04 809

原创要做深度学习，但代码水平很烂怎么办？

这里给大家分享一下收集的463篇神经网络以及相关变体的论文代码，以及深度学习领域一些可复现的论文代码，都是经典热文的方向，大家可以选择自己想要了解的网络和方向进行学习。他基于pytorch去做深度学习，弄了详细的教学课程，学会这个之后，对于想进行改深度学习代码的同学，也准备了一份改代码的教程。这个教程整体上对于用pytorch搭建了一个完整的流程，写了一个明确易懂的说明，很清晰告诉你每一步要做什么，并有具体的解释说明，对小白非常友好。找到一个适合速通党的喂饭教程，喂到嘴边了，怎么也学会了。

2025-04-24 11:49:52 274

原创「全球首个自回归视频生成大模型」，清华特奖得主团队 Sand AI 携 MAGI-1 颠覆视频生成！模型权重、代码100%开源

就在昨天，的创业公司Sand AI推出的MAGI-1大模型以开源之姿重磅入场，成为视频生成领域的新晋焦点！随着短视频平台崛起与影视制作智能化转型，传统视频生成技术如基于规则的动画系统和早期GAN模型，已难以满足多样化场景需求。而基于Transformer与扩散模型的新一代技术，虽带来革新希望，却仍面临长序列计算复杂度高、生成内容时序混乱等挑战。随着AIGC应用向影视制作、虚拟主播、游戏开发等领域渗透，对视频生成模型的实时性、可控性和内容质量提出更高要求。

2025-04-23 11:25:19 834

原创特征提取太6了！高效涨点！17种深度学习特征提取改进方法全面汇总

为了帮助大家更高效地选择适合的特征提取方法，快速提升模型效果，或者为寻找研究方向提供灵感，我精心整理了17种前沿的改进方法，并附上了每种方法的原文和源码。这些方法涵盖了多个技术流派，包括基于卷积神经网络（CNN）的方法、基于Transformer的方法、基于patch的方法以及基于图神经网络（GNN）的方法等，内容全面且实用。特征提取作为人工智能领域的一项关键技术。尤其是随着深度学习的兴起，这一领域发生了翻天覆地的变化，传统的手工设计特征方法逐渐被智能化、自适应化的提取方式所取代，各种创新改进层出不穷。

2025-04-22 11:42:54 782

空空如也

空空如也