码科智能-CSDN博客

原创（全面经典管用）Windows7 64位+Cuda6.5+vs2012 的caffe配置历程

cuda安装 VS2012调用matlab接口 caffe安装caffe for windows 安装错误处理集

2015-10-28 16:54:00 10817 3

原创一句指令完成电脑操作！腾讯的AI助手Marvis让我电脑会干活了：改设置、查文件、整理文档

让AI助手给你干脏话累活吧！腾讯推出了一款操作系统层级的AI助手马维斯，可以像龙虾一样接管你的电脑去干活！2026年了，AI工具已经多到用不过来。最近，腾讯应用宝团队发布了一款个人AI助手马维斯Marvis，可以使用自然语言完成电脑操作系统层级控制。马维斯的本质，是一个多 Agent 智能体协作系统，你下达指令，它负责执行，而且是在你的电脑上完成操作。Marvis 可以深度理解PC操作系统与硬件信息，可以通过自然语言直接调整系统设置，也可以基于硬件配置提供个性化优化建议。

2026-06-30 20:37:47 218

原创开源两天就超4k标星！百度这个新的OCR模型，一口气处理40页文档，刷新端到端SOTA

Unlimited OCR 是构建在 DeepSeek OCR 的基础之上，结合了其高压缩率图像编码器，把一张1024×1024的PDF图像压缩到仅256个视觉Token，压缩率高达16倍。当我们抄一本书的时候，我们不会逐字死记硬背，而是看一部分写一部分，边写边遗忘前面的内容，但始终保持整体的进度感。这就有了恒定的内存消耗，无论最终输出多长，模型占用的KV缓存都是一个固定的大小，不会随文本增长而爆炸。目前的端到端OCR模型，在处理长文档上基本都是循环方式逐页处理，无法在单次前向中解析多页内容。

2026-06-28 10:50:01 331

原创 OCR的终点，只是表格解析的起点！这个文档解析工具专治复杂表格

***

2026-06-06 17:33:16 192

原创病理AI基础模型无法落地？一个快慢双系统大模型悄悄落地了

不同分辨率视野对诊断的影响、不同染色/不同扫描仪对细胞形态的干扰、同一类型组织的多维度文本描述的差异性，这些问题，当前的基础模型几乎没有回答。一盆冷水浇在了“病理学即将被大模型全面重塑”的狂热之上，文中对UNI、GigaPath、Virchow、H-Optimus 等一众病理大模型做了全面实验。任何声称“病理基础模型已具备临床能力”的说法，都是不负责任的误导。没有一个模型能够对扫描仪引起的变异性具备可靠的鲁棒性，没有一个模型在微调后的下游任务中表现明显超越基线模型。一众病理大模型没有一个是完全正确的！

2026-04-20 19:35:41 212

原创 CLIP、DINO、SAM三合一？Meta开源一个能通吃所有视觉任务的编码器！视觉基础模型再升级！

但存在一个问题，单个基础视觉编码器通常只在一个或两个任务领域表现优异，下游应用需要精心选择特定的编码器以避免性能下降。在图文对上训练的编码器，如CLIP、SigLIP，在图像理解和视觉语言建模方面表现出色，但做密集预测时性能不尽如人意。CLIP、DINO、SAM每个模型本身都令人印象深刻，但当应用到其舒适区之外时，也都存在显著的局限性。总的来看，当前视觉编码器领域的核心矛盾：一个模型很难在所有任务上都做到顶尖。对应的，当下视觉模型架构逐步升级为预训练编码器+任务头的形式。不同视觉基础模型的特征可视化。

2026-04-15 19:13:23 240

原创重新标注ImageNet！128万张图像，单标签变多标签！这个预训练模型让COCO暴涨4个点

但是，你有没有想过这样的一个问题：当一张照片里同时出现“猎犬”和“汽车”，AI应该学到什么？那些在ImageNet上训练的模型，答案是——只能学到猎犬。汽车？不存在的，尽管它明明就在图像中，而且占据了不少的画面。每张图像仅标注一个类别，尽管许多图像描绘了多个物体或概念。这就是统治CV十余年的ImageNet数据集中的单标签问题！问题有多严重？训练污染：不完整的标签，带来嘈杂的监督，阻碍模型学习真正的视觉表示。评估失真：标注员检查图像，发现近15%的图像至少包含两个相关类别。

2026-03-16 20:18:43 273

原创 AI换脸带货算侵权吗？全国首部AI生成内容合规标准来了，欢迎参与起草

某国家一级演员在微博平台控诉的其影视素材及公益禁毒短片遭到恶意“搬运”，侵权者利用极低门槛的AI合成工具，仅凭3分钟视频素材，便直接篡改其声音与口型，生成高度逼真的虚假商业推广内容。针对内容标识、数据溯源、算法偏见矫正等关键环节，提供具体、可测试的技术要求与验证方法，为研发提供明确标尺，使合规评估客观统一，促进技术与法务业务协同。标准配套合规自查清单、评估报告模板等实用工具，将条款转化为可即时上手的检查项与工作流，显著降低企业内部的转化与培训成本，确保标准价值快速生效。，导致管理动作滞后于技术应用。

2026-03-10 18:35:27 390

原创表格错位、文字扭曲、布局混乱？实测！这个生产级OCR文档解析工具真的能打！

如果你正在被复杂的文档解析困扰，或者想提升企业知识库的召回准确率，建议去TextIn官网申请一个试用Key，挑一篇你们最复杂的PDF，跟着实战手册跑一遍。信心满满推到生产，一接入真实业务文档——需要合并的表格乱合并对不齐，字母解析出来变成了数字，目录、正文、页眉页脚都混在一起、印章变成了黑方块……在基础文档结构化知识库的基础上，增加“决策”与“外扩”两个节点，大模型不再局限于对本地文档的简单总结与调用，根据要求联网输出更具深度的分析。领完整实战手册，官方还送 1000 页免费解析额度，教程和弹药都备齐了。

2026-03-05 19:02:36 391

原创具身智能领域六大国产开源VLA大模型！谁将定义机器人的通用大脑？

具身智能行业，太需要一个真正能打、真正能用、真正开源的通用大脑了。随着宇树G1在春晚舞台大展拳脚，具身智能的竞争也从硬件军备赛迈入了大脑进化战。在近半年的时间内，中国力量集体爆发，宇树、小米、阿里、自变量、千寻、星海图等团队，相继开源各自的VLA具身大模型。本文将拆解这几大国产开源模型的硬核实力，看谁在卷操作精度，谁在卷实时反应，谁又在卷工业落地！原文链接：六大开源VLA模型。

2026-03-02 19:35:16 1327

原创 OCR在真实场景“翻车”？面对跨页表格、密集表格、扭曲文档等难题，这个OCR文档解析工具太6了！

在文档解析真实应用场景中，我们面对的已不再是简单的文本文档，有大量数据在PDF、扫描件、图片、网页等非结构化文档中。从解析难度方面来讲，单拿其中一项表格识别，就需要处理多级嵌套、跨页跨度、合并拆分单元格，以及嵌入式图像公式等元素。比如论文的附录表格可能横框三四页，财务报表的表格可能分散在多个章节。最近开源的 DeepSeek-OCR 2 模型能够更精准地还原复杂文档的自然阅读逻辑，对表格识别的能力也再次提高。真实场景文档解析有多难？原文链接：100页复杂文档2秒完成解析！

2026-02-04 17:26:56 746

原创只需一张图，无需训练、无需先验、无需提示、类别无关！这个通用物体计数模型即将开源！

基于示例的方法通过给定图像中的1-3个实例提供最强的指导，代表性的工作PseCo 将SAM的通用分割能力与CLIP的语义理解能力相结合。ABC123是首个多类别计数框架，它是一种基于Transformer的密度回归方法，能够在无需先验的情况下同时计数多种物体类型。今天介绍的OCCAM框架是真正类别无关的、理想的、可用于全自动物体计数系统的、以及目前最通用的解决方案。先验依赖型方法是类别无关计数领域的开山鼻祖，也是目前最成熟的技术路线。真正类别无关的、理想的、可用于全自动物体计数系统的解决方案。

2026-01-23 11:23:11 394

原创推动高质量数据集建设，全国首部可信技术安全+数据合规标准来了！

为核心，旨在建立安全可控的技术基座与多主体协作规则，明确数据提供方、数据处理方、大模型研发机构、AI应用企业、技术支撑方以及法律合规机构等多元主体在可信空间数据协作中的协作规则、操作规范与风险防控机制。：提前掌握AI大模型可信数据协作的合规框架与操作要点，降低协作风险及合规成本，推动数据从资源向资产转化，助力高质量数据集建设，充分释放数据要素价值；：率先形成“技术安全+数据合规”的业务模式，构建高质量数据获取、共享、流通体系，开拓高价值创新应用场景，打造差异化竞争力，增强行业话语权；

2026-01-15 22:45:29 583

原创文档解析结果脏乱差？零样本适配各类格式！这个OCR多模态解析工具相当给力！

easydoc-parse-flash模型可高速解析标题、文本、表格、公式，支持跨页合并，表格，适合快速处理且保留表格结构的场景。现在的文档解析模型越来越强大：从仅支持文本表格，扩展到二维码、印章、签名、音频、视频等多种元素；我们直接上传了一份文本相对模糊的合同文件，以模拟真实场景的光照等环境，在界面操作右侧选择不同的模型进行解析，如上图所示，Premium。，例如合同中的 “甲方名称”“合同金额”“有效期”“违约责任” 等核心要素，如下图所示，可以使用提示生成功能，输入指定的要素，。

2026-01-12 19:05:23 716

原创 VLM细粒度识别新范式！快慢思考赋能、无需训练、不建样本库！让CLIP细粒度识别精度暴涨15个点

那如果把模型换成你，你会怎么处理？人类通常不会直接给出答案，而是经历一个自然的认知过程：首先是快速筛查，先确定这大概是某种鸟，然后再精细观察“喙的形状、羽毛纹路”，通过细微特征的比对做出最终判断。这一过程恰好对应认知科学中的“双系统理论”：系统1：直觉快速，基于经验快速反应，但容易出错，系统2：深思熟虑，通过逻辑分析做出精准判断，但需要时间。而当前VLM的表现完美对应了“系统1”的特征：能够快速识别出合理的候选类别子集，却缺乏“系统2”的精细辨别能力，导致在相似类别间频繁出错。细粒度识别准确率低？

2026-01-05 19:01:18 401

原创单靠大模型也翻车？缺陷识别准确率暴涨20%！清华AgentIAD：单一智能体框架，专门解决微小缺陷

在四个工业异常检测基准上进行评估，并将模型与基于MLLM和CLIP的方法进行比较，包括专有模型、开源VLM、微调的GRPO系统和基于提示的CLIP变体（AnomalyCLIP、UniVAD）。这种基于工具的多轮推理过程使智能体能够首先定位模糊区域，然后检索参考知识，最后得出可靠、可解释的结论——实现了比非工具单轮推理显著更高的准确性。而工业缺陷通常是细微的、异质的，并且位于杂乱背景的小区域内，这使得单次前向传播的检测器容易忽略细粒度异常。在面对开放域、未知类别的异常时，模型更是直接“趴窝”。

2025-12-21 17:39:59 648

原创免训练开放词汇分割范式突破！将 SAM 3 零微调适配遥感图像分析领域，17个数据集上刷新SOTA

超高分辨率的遥感图像上的分割结果，原文链接：SAM3+遥感在之前谈到开放词汇分割方案时，必然离不开免训练的 CLIP 派系和 SAM 辅助派系两大类，但前者在精确定位方面常常面临挑战，后者则通常依赖于复杂的多阶段流程。典型的如遥感图像分析领域，上述问题更为突出。如何在包含成千上万密集小型目标（如车辆、小型建筑）与广阔无定形背景（如农田、水域）的复杂场景中，实现精准的像素级识别？

2025-12-15 18:50:44 1491

原创 VisionAgent 让目标检测、计数等任务如此简单！无需标注、仅输入文字提示、可适配任意场景

比如针对进一步地目标计数任务：“计算图像中的可乐罐的数量”，可能会使用该 florence2_object_detection 工具检测所有可乐罐，然后使用该 countgd_object_detection 工具计算检测到的罐子的数量。，这些工具是独立的模型或函数，用于完成特定任务，QwenVL、OCR、零样本计数、分割等模型均在组件中，可以调用任意的组装自己的任务。：识别目标基于其空间位置或与其他物体的关系，例如识别“冰淇淋上的雏菊”特定目标识别，在同类别中精准区分特走对象，确保精准识别。

2025-12-10 21:00:50 869

原创补齐SAM3最后一块短板！无需Qwen3-VL等大模型当翻译，SAM-I 首次拥有复杂语义指令级推理能力

我们能否在保留 SAM3 通过大规模训练获得的强大概念召回能力的同时，使其能够解释更复杂的指令并定位相应的实例？可提示视觉分割范式中，用户提供点、框或掩码来引导模型为每个提示分割单个目标；可提示概念分割范式中，用户可提供“足球运动员”或“黄色巴士”等简短名词短语，使模型能够分割图像或视频中给定概念的所有实例；可提示指令分割范式中，专门面向现实世界的使用涉及远远超出简单名词短语的表达，模型能够遵循丰富、复杂的指令，同时保持其强大的概念级定位能力。

2025-12-08 19:11:19 1129

原创 DINO、MAE离真正落地还差关键一步！MIT开源无需训练的特征上采样框架，让CV迎来分辨率自由时代？

是一种用于计算机视觉的通用特征上采样新方法，该架构可以一次训练并应用于任何视觉编码器，无论特征的维度或分辨率如何，其核心创新在于其在推理时的泛化能力，这是以往方法所不具备的。另外在效率方面，将每张图的优化时间缩短到约0.4秒，在语义分割、深度估计等多个像素级任务的基准测试中，其性能达到了最优。为了让它能完成像素级的预测任务，我们不得不为其配备一个庞大、复杂且训练成本高昂的解码器，来费力地还原出丢失的细节。它的做法非常巧妙：对于一张输入图片，先将其高分辨率的RGB图像缩小，模拟出低分辨率版本。

2025-12-02 20:39:30 926

原创 Waymo发布视觉E2E驾驶基准数据集！面向端到端驾驶的开放数据集，专攻0.03%概率的长尾场景！

Waymo 提出评估者反馈得分，一种与人类对齐的开放式评估指标。RFS 的核心思想是预测轨迹越符合专家偏好越好。首先生成候选轨迹：使用模型生成多达 64 条未来轨迹，聚类后保留约 12 条代表性路径。然后由人工标注与评分由专业评估员选出3 条关键轨迹，每条轨迹在安全、合法、反应时间、刹车必要性以及效率五个维度上打分。最后模型预测轨迹若落在某条参考轨迹的“信任区域”内，则获得其评分；超出则按指数衰减扣分，最低4分。真正的智能驾驶，不在于避开100次小颠簸，而在于躲开那1次致命碰撞。

2025-11-30 14:33:52 1193 1

原创 6.3k Star！复杂场景碾压PPOCR-VL？WPS团队开源文档解析新模型：为跨页、多栏、嵌入等图表而生！

从而完美还原复杂的图文表格。首先系统像侦探一样，先用一个目标检测模型在表格里“巡逻”一圈，

2025-11-25 21:13:41 988

原创不止于单目深度估计！字节Seed团队开源万物深度估计 Depth Anything V3，统一视觉几何估计任务！

字节Seed团队推出DepthAnythingV3（DA3），旨在通过统一模型解决从任意视觉输入恢复3D结构的核心问题。DA3具备相机姿态估计、深度信息生成和视觉渲染三大能力，在多视图几何任务中性能提升35.7%，单目深度估计也超越前代。其创新在于采用标准DINOv2编码器和"深度-射线"联合预测目标，通过跨视图自注意力机制生成精确3D点云。该模型为机器人、自动驾驶等领域的3D视觉应用提供了更通用的解决方案。

2025-11-19 21:01:08 1606

原创一行代码安装！继5万星Surya与Marker后，原作者再开源文档解析模型，面向复杂表格、手写、版式分析！

这种方法速度很快，但会遗漏复杂表格的细节，包括那些带有横向文本的表格。最近，它们的原作者团队悄无声息地发布了Chandra——一个在独立基准测试中SOTA的全新OCR模型（唯一遗憾的是没和PaddleOCR-VL对比），一个。它保留了文档的所有内容，包括表单、表格、脚注、列、数学公式，甚至手写痕迹，无论是物理习题集还是保险表格，该模型都能按照预期的方式重新组织所有内容。是一款高度精确的 OCR 模型，可将图像和 PDF 转换为结构化的 HTML/Markdown/JSON，同时保留布局信息。

2025-11-05 11:44:22 770

原创这个开源的端到端OCR模型厉害了！覆盖全文档类型、全场景表格、全类型公式，推理速度4-7倍提升！

整页表格、内容极密表格、大量空单元格彩表、多表紧密排列、不规则合并单元格表、完全无线表——竞品出现“结构错误、结构丢失、内容丢失、表格分裂”等错误时，MinerU2.5 仍能输出正确结果。GOT、Ocean-OCR、olmOCR、dots.ocr 等用原生分辨率编码器统一识别文本、公式、表格、图表，但联合优化导致复杂版面精度下降，长文档幻觉问题突出。第二阶段，在全局版面先验的引导下，从原图截取关键区域，以原生分辨率进行精细内容识别，从而保留密集文本、复杂公式和表格中的细粒度细节。视觉模型的编码器初始化自。

2025-11-04 12:12:13 1033

深度学习入门全方位必备PPT

空空如也