- 博客(74)
- 问答 (1)
- 收藏
- 关注
原创 Change3D:从视频建模视角重新审视变化检测与描述
在本文中,我们提出了Change3D,这是一个通过视频建模重新概念化变化检测和描述任务的框架。最近的方法通过将每一对双时相图像视为独立的帧,取得了显著的成功。它们通常采用共享权重的图像编码器来提取空间特征,然后使用变化提取器来捕捉两幅图像之间的差异。然而,图像特征编码作为一个与任务无关的过程,无法有效地关注变化区域。此外,针对不同变化检测和描述任务设计的不同变化提取器,使得难以拥有一个统一的框架。为了解决这些挑战,Change3D 将双时相图像视为包含两个帧的微型视频。通过在双时相图像之间整合可学习的。
2025-12-17 16:09:56
469
原创 VLA综述:Vision-Language-Action Models: Concepts, Progress, Applications and Challenges(前2章)
视觉-语言-动作(Vision-Language-Action, VLA)模型标志着人工智能领域的一项变革性进展,旨在将感知、自然语言理解与具身行动统一于单一的计算框架之中。本综述系统性地梳理了VLA模型近年来的研究进展,并围绕五大主题支柱对该快速演进领域的研究图景进行了全面整合。首先,我们确立了VLA系统的概念基础,追溯其从早期跨模态学习架构逐步演进为通用型智能体的发展脉络——此类智能体紧密融合了视觉-语言模型(Vision-Language Models, VLMs)、动作规划器与分层控制器。
2025-12-15 16:43:13
989
原创 UniTS:任务统一架构的遥感时间序列生成模型
UniTS 是一个基于流匹配(flow matching)范式的条件时间序列生成模型。如图 1 所示,其核心思想是通过统一的生成架构适配多种遥感时间序列任务。模型将任务特定条件(如 Sentinel-1 与含云 Sentinel-2、历史序列等)编码为条件信号,并与从标准高斯分布采样的随机噪声拼接,作为输入。训练阶段,UniTS 学习一个速度场vxttv(x(t), t)vxtt,定义从噪声分布到真实时间序列数据分布的确定性常微分方程dxtdtvxttt∈01d。
2025-12-10 16:13:06
1038
原创 大模型强化学习(LLM-RL)最前沿综述:从 DPO 到 System 2 推理与后训练扩展
现在的 LLM-RL 已经不仅仅是“让模型说话更有礼貌”。它是通向**通用人工智能(AGI)**的关键路径。通过PRM(关注过程)Search(引入搜索)和Self-Play(自我博弈),我们正在构建能够自主规划、自我纠错、并能解决从未见过难题的智能体。2025年的大模型竞争,本质上将是强化学习算法与数据策略的竞争。
2025-11-30 20:16:41
956
原创 硬核劝学:2026年 AI 工程师“飞升”指南 (LLM/RL/VLM/AIGC 全路线)
如果这篇博客让你感到焦虑,那就对了。焦虑是学习的动力。去下载一个或Qwen2.5-7B。安装vLLM,尝试在本地部署它。阅读DPO的论文,并尝试用库跑通一个最小的对齐 Demo。只有动手写代码 (Write Code),你才能真正拥有它。(附注:文中提到的所有论文建议直接在 arXiv 搜索标题,工具库直接上 GitHub 搜索 Star 数最高的即可。2025年的技术,唯快不破。
2025-11-29 19:50:47
882
1
原创 2025年11月大模型巅峰之战:神仙打架,谁才是真正的“版本之子”?
2025年11月,AI已经不再是“玩具”了。如果你要写代码,请无脑冲Claude或DeepSeek。如果你要写论文/读研报Kimi和GPT-5是你的救命稻草。如果你要做视频/搞设计海螺AI和腾讯混元会让你打开新世界的大门。未来已来,甚至有点拥挤。不要只做一个看客,赶紧点击上面的链接,成为第一批驾驭这些“神兽”的人吧!
2025-11-29 19:47:23
1209
原创 通往 AGI 的关键钥匙:深入解析“世界模型” (World Models)
如果说大语言模型是“读万卷书”的才子,那么世界模型就是试图“行万里路”的探险家。在技术层面,世界模型通常包含一个能够预测未来的神经网络。给定当前的状态 (sts_tst) 和一个动作 (ata_tat),它能够预测下一个状态 (st1s_{t+1}st1Pst1∣statPst1∣stat这意味着 AI 不再仅仅是被动地识别图像或生成文本,而是理解了因果关系和物理定律(如重力、碰撞、惯性)。
2025-11-22 15:25:00
1069
原创 什么是模型蒸馏?——让小模型学会“大模型的智慧”
简单来说,模型蒸馏就是“以大带小”:用一个已经训练好的、性能强大的“教师模型”(Teacher Model),去指导一个结构更小、计算更轻的“学生模型”(Student Model)学习。这就像一位经验丰富的老师,不直接告诉你标准答案,而是通过讲解思路、分析错误、指出重点,让你自己慢慢领悟并形成自己的理解。学生模型不是复制老师,而是“吸收”老师的智慧。
2025-11-18 15:19:13
249
原创 VectorSynth: 基于结构化语义的矢量合成精细卫星图像合成
我们介绍了,这是一个基于扩散的框架,用于以。与以前的文本或布局条件模型不同,VectorSynth。视觉语言对齐模块从多边形语义生成像素级嵌入;。VectorSynth 支持交互式工作流程,将语言提示与几何感知条件相结合,从而实现快速假设模拟、空间编辑和地图内容生成。为了进行训练和评估,
2025-11-12 16:51:15
895
原创 视频生成模型发展历程:从GAN到Sora的技术革命之路
从2014年简单的逐帧预测,到2025年Sora的世界模拟能力,视频生成技术经历了近十年的快速发展。这一历程不仅见证了深度学习技术的成熟,更预示着AI将在创意产业中发挥越来越重要的作用。正如OpenAI在Sora发布时所说:"我们正在向通用人工智能迈进,而视频生成只是这个宏伟蓝图中的一个重要步骤。"我们有理由相信,在不远的将来,每个人都能够轻松地创造出属于自己的精彩视频内容。这场从GAN到Sora的技术革命才刚刚开始,未来还有更多的惊喜等待我们去发现和创造。参考文献Sora技术报告和官方发布资料。
2025-11-03 10:51:05
1138
原创 TerraGen: A Unified Multi-Task Layout Generation Framework for Remote Sensing Data Augmentation
遥感视觉任务需要大量跨多个相互关联领域的标注数据。然而,当前的生成式数据增强框架通常是任务孤立的,即每个视觉任务都需要训练一个独立的生成模型,且忽略了对地理信息与空间约束的建模。为解决上述问题,我们提出了 TerraGen——一种统一的布局到图像生成框架,能够灵活、可控地合成适用于多种高层视觉任务(如目标检测、语义分割和要素提取)的遥感影像。
2025-10-28 11:27:42
718
原创 InstructBLIP:迈向通用视觉-语言模型的新里程碑
InstructBLIP 通过系统性的视觉-语言指令微调,成功将 BLIP-2 升级为一个真正通用的视觉-语言助手。其三大关键技术——指令感知特征提取、平衡数据采样、大规模指令数据构建——为多模态通用模型的发展提供了重要范式。无论是学术研究还是工业应用,InstructBLIP 都是一个值得深入探索的强大基座模型。延伸阅读希望这篇博客对你理解 InstructBLIP 有所帮助!
2025-10-23 14:43:31
394
原创 地球也有“AI大脑”?Google 推出 Earth AI,让卫星、人口与气候数据“对话”
Earth AI 的野心,不只是技术突破。它的终极目标,是让地理智能民主化——让城市规划者快速评估新区开发风险;让公共卫生官员提前部署疫苗;让救灾团队在灾难来临前精准调配资源;甚至让普通市民问一句:“我家附近未来十年会更热吗?”就能得到可靠答案。正如论文所说:地球,是我们唯一的家园。现在,我们终于有了一个更聪明的“眼睛”和“大脑”来理解它、保护它。而这一切,才刚刚开始。
2025-10-22 16:11:24
937
原创 DeepSeek-OCR:用“一张图”压缩千言万语,让大模型记住更久的历史
视觉模态不仅是“看图说话”的工具,更是高效压缩语言信息的媒介。它挑战了“文本必须用文本 token 表示”的惯性思维,为解决 LLM 的长上下文瓶颈提供了全新视角。对话历史被“渲染”成滚动长图存入上下文;整本 PDF 以一张超图形式输入模型;LLM 的“记忆”像人眼一样——近处清晰,远处模糊,但整体高效。这不仅是 OCR 的进步,更是多模态与语言模型融合的一次范式跃迁。延伸阅读论文地址:[arXiv 链接(待发布)]
2025-10-21 14:18:59
454
原创 图像生成模型的演进之路:从 Stable Diffusion 到 FLUX
从 Stable Diffusion 的开源引爆,到 SD3 的架构革新,再到 FLUX 的上下文智能编辑,图像生成模型正从“被动生成”走向“主动理解与修改”。FLUX 的出现标志着开源模型在可控性与实用性上迈入新阶段——尤其适合需要精确空间约束、结构保持与真实感生成的专业场景(如城市规划、遥感变化检测、建筑分布模拟等)。未来,随着流匹配、多模态理解与编辑能力的深度融合,图像生成将不仅是创意工具,更是数字世界构建的基础引擎。建议开发者通用任务可继续使用 SD3;需要高级编辑或商业部署,推荐尝试;
2025-10-19 15:03:33
685
原创 解决 Hugging Face 国内下载慢的问题:用 ModelScope 替代加速模型获取
在国内开发 AI 应用,网络环境是绕不开的现实问题。与其在 Hugging Face 的下载失败中反复挣扎,不如尝试 ModelScope 这样为中文用户优化的平台。更快的速度、更高的稳定性、更低的迁移成本,让它成为 Hugging Face 的理想替代方案。下次当你准备拉取一个大模型时,不妨先去 ModelScope 看一眼——说不定,你的训练任务就能提前几小时完成!ModelScope 官网:https://modelscope.cn。
2025-10-18 23:19:15
1550
原创 AeroGen Enhancing Remote Sensing Object Detection with Diffusion-Driven Data Generation
遥感图像目标检测(Remote Sensing Image Object Detection, RSIOD)旨在识别并定位卫星或航空影像中的特定目标。然而,当前 RSIOD 数据集中标注数据稀缺,严重限制了现有检测算法的性能。尽管现有技术(如数据增强和半监督学习)在一定程度上缓解了这一问题,但它们高度依赖高质量标注数据,在稀有目标类别上的表现仍不理想。为解决该问题,本文提出了一种专为 RSIOD 任务设计的布局可控扩散生成模型(即AeroGen据我们所知,AeroGen 是首个。
2025-10-13 03:01:50
361
原创 DiffusionDet:基于去噪扩散过程的对象检测新框架
我们提出,一种将对象检测任务建模为从噪声边界框到真实对象边界框的的新框架。在训练阶段,对象边界框从真实标注框逐步扩散至随机分布,模型学习逆转这一加噪过程;在推理阶段,模型以一组随机生成的边界框为起点,通过渐进式优化逐步精炼为最终检测结果。该方法具备显著的,支持动态调整边界框数量与迭代评估步数。在标准基准上的大量实验表明,DiffusionDet 相较于先前成熟的检测器取得了优异性能。
2025-10-13 01:00:59
393
原创 Generalizable Disaster Damage Assessment via Change Detection with Vision Foundation Model
日益频繁且强度不断加剧的自然灾害对快速、准确的灾损评估提出了迫切需求。为此,研究者已构建了基于高分辨率卫星影像的灾害基准数据集,以开发用于检测受损区域的方法。然而,由于现有数据集在地理区域和灾害类型方面的多样性有限,这些方法在应用于未见过的新区域时面临显著挑战。本文提出**DAVI(Disaster Assessment with Vision foundation model,基于视觉基础模型的灾害评估方法),一种新颖的无监督域适应方法,旨在解决域间差异问题,并在无需目标区域真实标签的情况下实现建筑级别的
2025-10-10 11:24:54
1011
原创 从Transformer到万亿参数:大语言模型的狂飙之路
然而,它们有一个天然的缺陷:随着文本序列的增长,模型会“忘记”早期的信息,即所谓的“梯度消失”问题。未来,随着模型架构的持续创新、推理能力的不断增强,以及与机器人、科学计算等领域的深度融合,我们有理由相信,一个由AI驱动的、更加智能和高效的时代正在加速到来。简单来说,模型在处理一个词时,会同时“关注”到句子中的所有其他词,并根据它们与当前词的相关性赋予不同的权重。这就像一个高效的读者,能一眼洞穿整个句子的结构,无论句子多长,都能精准捕捉词与词之间的复杂关系。这场狂飙之路,我们每个人既是见证者,也是参与者。
2025-10-08 16:25:21
937
原创 最新文生图模型进展:从Stable Diffusion 3到Sora的视觉革命
文生图技术已从实验室走向大众创作,成为数字内容生产的新基础设施。无论是艺术家、营销人员、游戏开发者还是普通用户,都能从中受益。随着模型能力的不断提升和生态的日益成熟,我们正站在一个“人人都是视觉创作者”的新时代门槛上。技术在进步,但人类的想象力仍是不可替代的核心。AI不是取代创意,而是放大创意——这或许正是文生图技术最激动人心的意义所在。延伸阅读Stable Diffusion 3 官方技术报告OpenAI Sora 技术博客Midjourney V6 更新日志。
2025-10-06 14:56:37
1350
原创 Qwen-VL 模型报错 Floating Point Exception (core dumped)
问题原因解决方案1. GPU 显存不足2.版本过旧1. 降低 batch / 用 4-bit 量化2.升级到✅记住:只要你的是 12.3.4.1,90% 的 FPE 问题都会迎刃而解!提前下载好模型(可用固定所有依赖版本(用使用 Docker 容器封装环境,避免“在我机器上能跑”的尴尬。
2025-09-28 14:17:29
877
原创 Linux系统基本操作入门指南(适合新手小白)
Linux作为开源、稳定、高效的系统,在服务器、云计算、嵌入式、开发等领域占据主导地位。无论你是程序员、运维工程师、学生还是技术爱好者,掌握Linux基本操作都是必备技能!本篇将从零开始,带你快速上手Linux常用命令与操作,告别“黑屏恐惧症”,轻松玩转终端!
2025-09-23 14:04:13
314
原创 Python开发工具全解析:PyCharm、VSCode、Jupyter Notebook…到底哪个更适合你?
官网:https://www.jetbrains.com/pycharm/适用场景:大型项目、Web开发(Django/Flask)、团队协作、专业级调试。版本选择Community(社区版):免费,支持纯Python开发。Professional(专业版):付费,支持Web框架、数据库、科学工具、远程开发等。优点智能代码补全、重构、错误检测极强集成调试器、测试工具、虚拟环境管理支持 Docker、数据库、REST Client项目结构清晰,适合工程化开发缺点。
2025-09-22 23:38:14
1528
原创 Python包管理利器:pip源与Anaconda用法全解析
场景推荐工具数据科学/机器学习项目Web开发/通用Python项目需要管理非Python依赖(如CUDA)conda团队协作/环境复现轻量级/快速原型国内用户务必配置镜像源,节省90%下载时间。不同项目使用不同conda环境,避免包冲突。
2025-09-22 23:00:21
1245
原创 卷积神经网络(CNN)实战:从理论到代码,彻底掌握MNIST手写数字识别
从简单开始:先实现基础CNN,再逐步添加复杂功能监控验证集:训练集准确率>99.5%可能已过拟合错误分析优先:查看错误样本比调参更重要数据 > 模型:数据增强通常比改模型更有效不要迷信SOTA:ResNet在MNIST上可能不如简单CNN🌟黄金法则“在MNIST上追求99.8%准确率是学术练习,但在真实场景中达到95%可能已是商业成功”—— 实际项目中,数据质量、部署成本往往比峰值准确率更重要!理论层面:理解了卷积、池化、特征提取的数学本质工程层面:掌握了从数据预处理到模型部署的全流程。
2025-09-22 10:35:21
979
原创 30分钟从零打造Python图形界面计算器:Tkinter实战教程(超详细)
对比项TkinterPyQtwxPython安装复杂度⭐(无需安装)⭐⭐⭐(需pip)⭐⭐(需pip)学习曲线⭐⭐⭐⭐⭐⭐⭐⭐⭐文档质量⭐⭐⭐⭐⭐⭐⭐⭐⭐适合场景快速原型/小工具大型应用跨平台应用本项目评分⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐关键结论对于第一个GUI项目,Tkinter是无可争议的最佳选择。它让你专注于编程逻辑而非环境配置,30分钟内就能获得可视化的成就感,这是持续学习的最大动力!最后赠言编程之美在于将抽象逻辑转化为直观体验。
2025-09-22 10:23:48
776
原创 什么是 OFDM?它如何解决频率选择性衰落?
在无线通信中,由于多径传播某些频率被深度衰落(信号极弱)某些频率被增强信道响应在频域上呈“波动状”👉 这种信道对不同频率分量响应不同的现象,称为频率选择性衰落。📉 对单载波系统(如传统 QAM)来说,整个信号频带可能正好落在衰落谷点 → 误码率飙升!OFDM 通过将宽带信道划分为多个窄带正交子载波,使每个子载波经历近似“平坦衰落”,从而将复杂的频率选择性衰落信道转化为易于均衡的并行平坦衰落子信道 —— 这是其能高效对抗频率选择性衰落的根本原因。配合循环前缀、频域单抽头均衡、自适应调制与编码。
2025-09-15 23:47:24
809
原创 矩阵的特征值与特征向量:定义、几何意义与在信号处理中的应用
应用领域特征值作用特征向量作用PCA表示主成分能量(方差)表示数据主要变化方向SVD奇异值平方 = 特征值构成左右奇异向量(数据基)系统稳定性判断系统是否收敛/发散描述系统模态(振荡/衰减方向)ICA / 白化用于缩放数据方差用于旋转数据去相关图信号处理图频率(类比模拟频率)图傅里叶基(类比正弦波)MUSIC算法区分信号/噪声子空间噪声子空间用于DOA估计PageRank主特征值=1(马尔可夫稳态)各网页重要性排名。
2025-09-15 23:35:54
1577
原创 奈奎斯特频率和采样定理的解释
奈奎斯特频率是指无混叠采样所需的最低采样频率的一半fNfs2fN2fs信号最高频率 $ f_{\text{max}} $ 必须小于奈奎斯特频率fmaxfNfs2fmaxfN2fs→ 因此,采样定理条件fs2fmax⇔fmaxfs2fNfs2fmax⇔fmax2fsfN原始频谱占据−fmaxfmax−fmaxfmax。
2025-09-15 23:29:45
1183
原创 CLIP 完全上手指南:从安装、下载加速、文本/图像编码到图文匹配,一篇全搞定!
CLIP(Contrastive Language–Image Pretraining)是 OpenAI 在 2021 年发布的“图文理解之王”。它不生成图像,而是把图像和文本映射到同一个语义空间输入文字 → 找最匹配的图片输入图片 → 找最匹配的文字计算图文相似度做 zero-shot 图像分类(不用训练!它让 AI 同时“看懂图”和“读懂文”,还能让它们对话!方法输入是否自动 tokenize是否自动归一化使用场景字符串列表✅ 是✅ 是推荐!日常推理、匹配token 张量。
2025-09-15 17:11:15
1731
原创 大模型专栏(一):2025最火AI工具大盘点 + 普通人零门槛实战指南
2025年,不会用AI的人,就像2005年不会用电脑的人。你不需要懂Transformer,不需要会写代码——哪个工具能解决你的问题,怎么用它省时间、多赚钱、少加班。
2025-09-06 20:07:02
1341
原创 零基础入门深度学习:从理论到实战,GitHub+开源资源全指南(2025最新版)
深度学习不是“看会的”,而是“练会的”。不要等“准备好了”再开始——今天就打开Colab,跑通第一个Notebook!“种一棵树最好的时间是十年前,其次是现在。” —— 非洲谚语。
2025-09-06 19:57:10
2728
原创 从零开始:完成你的第一个Python项目——简单计算器(超详细教程)
零门槛启动:无需安装库,30分钟内从安装到运行核心技能全覆盖:输入输出、条件判断、循环、错误处理真实项目思维:学会分步开发、调试、测试的完整流程信心建立关键:运行成功的那一刻,你会真正相信“我能写代码”!最后赠言编程不是记忆语法,而是解决问题的能力。这个计算器可能很简单,但当你亲手修复第一个ValueError错误时,你已经踏上了成为开发者的道路。所有伟大的项目,都始于一个简单的“Hello World”——而你的第一个项目,是更有意义的“Hello Calculator”!
2025-08-24 21:59:36
780
原创 BEVFusion(2022-2023年)版本中文翻译解读+相关命令
本文提出了一种新颖的激光雷达-相机融合框架BEVFusion,解决了现有方法对激光雷达输入的严重依赖问题。现有融合方法通过激光雷达点云查询图像特征,导致在激光雷达故障时完全失效。BEVFusion采用解耦的双流架构,分别独立处理相机和激光雷达输入,将多视角图像特征(通过改进的Lift-Splat-Shoot方法)和点云特征(支持多种编码方式)映射到统一的BEV空间后再进行融合。实验表明,该框架在nuScenes数据集上mAP达到69.2%,超越现有最优方法;在模拟激光雷达故障的鲁棒性测试中,性能优势更显著(
2025-08-17 11:15:08
832
原创 EarthSynth Generating Informative Earth Observation with Diffusion Models
由于遥感图像固有的特性(类间相似性高、类内差异性大),模型解释面临挑战。为了从生成式扩散模型中获得信息量更丰富的数据分布,论文提出通过反事实合成来增强场景多样性。目标:构建一个尽可能接近真实世界分布D_real的训练数据分布D_train。方法:将现有的物体类别与多样化的背景上下文进行组合,创造出在现实中不存在但逻辑上合理的新场景。定义 1 (反事实合成)给定一组源元素,每个Ai代表从不同实例中提取的特定语义组件(如物体、区域或属性)。一个反事实样本x'(其中i ≠ j ≠ k这里的CF(·)
2025-08-11 14:55:34
865
原创 LLAVA Visual Instruction Tuning——视觉语言通用模型的先驱
阶段核心任务输入输出公式表示训练目标训练的模块第一阶段特征对齐图片III简单描述YcY_cYcPYc∣IfϕW⋅ZvPYc∣IfϕW⋅ZvL1CEfϕW⋅ZvYc∗L1CEfϕW⋅ZvYc∗仅投影层WWW第二阶段指令微调图片III+ 指令XinstructXinstruct完整回答YaY_aYaPYa∣XinstructI。
2025-08-06 20:03:00
1152
原创 PixelCNN介绍:VQ-VAE的前一步探索
设原始图像为xxxzeEncoderxkiargminj∥zei−ej∥2zqiekizeEncoderxkiargjmin∥zei−ej∥2zqiekiPixelCNN 建模隐编码图kk1k2kNkk1k2kNpk∏i1Npki∣ki;
2025-08-01 12:08:04
605
原创 2024CVPR:Question Aware Vision Transformer for Multimodal Reasoning介绍
在视觉与语言多模态任务中,如视觉问答(VQA)、图像描述生成等,模型需要同时理解图像内容和用户提出的问题,并进行推理和回答。传统的视觉-语言模型通常采用“两阶段”结构:先通过视觉编码器提取图像特征,再结合问题文本,由大语言模型(LLM)完成最终的回答生成。然而,这种设计存在一个关键问题——视觉编码过程是独立于用户提问内容的 ,也就是说,无论问题是关于图像中的什么内容,视觉编码器都会以相同的方式提取图像特征,导致视觉特征可能无法聚焦于问题所关注的关键区域。
2025-07-13 22:38:43
910
【机器视觉与图像处理】数字图像处理关键技术解析:图像滤波、增强及伪彩⾊与假彩⾊技术应用
2025-08-19
【机器学习期末复习笔记】:快速了解机器学习的内容
2025-08-19
单片机系统开发过程与51单片机基础知识
2024-12-18
数字信号处理期末复习笔记:时域信号、DTFT、DFT、z变换及滤波器设计
2024-12-17
问一道python的数字排列问题
2022-09-25
数组大小排列和插入问题
2022-09-20
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅