自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

AIGC | 智能洞察,创造未来

欢迎来到码科智能!这里是一个致力于人工智能深度学习的知识分享平台。我们的目标是为您提供最新的AI技术、深度学习算法和实践经验。无论您是初学者、研究者还是工程师,我们都为您准备了精心编写的教程、案例和最佳实践,帮助您掌握人工智能的核心概念和应用。通过我们的博

  • 博客(111)
  • 资源 (1)
  • 收藏
  • 关注

原创 (全面 经典 管用)Windows7 64位+Cuda6.5+vs2012 的caffe配置历程

cuda安装 VS2012调用matlab接口 caffe安装caffe for windows 安装错误处理集

2015-10-28 16:54:00 10781 3

原创 重新标注ImageNet!128万张图像,单标签变多标签!这个预训练模型让COCO暴涨4个点

但是,你有没有想过这样的一个问题:当一张照片里同时出现“猎犬”和“汽车”,AI应该学到什么?那些在ImageNet上训练的模型,答案是——只能学到猎犬。汽车?不存在的,尽管它明明就在图像中,而且占据了不少的画面。每张图像仅标注一个类别,尽管许多图像描绘了多个物体或概念。这就是统治CV十余年的ImageNet数据集中的单标签问题!问题有多严重?训练污染:不完整的标签,带来嘈杂的监督,阻碍模型学习真正的视觉表示。评估失真:标注员检查图像,发现近15%的图像至少包含两个相关类别。

2026-03-16 20:18:43 207

原创 AI换脸带货算侵权吗?全国首部AI生成内容合规标准来了,欢迎参与起草

某国家一级演员在微博平台控诉的其影视素材及公益禁毒短片遭到恶意“搬运”,侵权者利用极低门槛的AI合成工具,仅凭3分钟视频素材,便直接篡改其声音与口型,生成高度逼真的虚假商业推广内容。针对内容标识、数据溯源、算法偏见矫正等关键环节,提供具体、可测试的技术要求与验证方法,为研发提供明确标尺,使合规评估客观统一,促进技术与法务业务协同。标准配套合规自查清单、评估报告模板等实用工具,将条款转化为可即时上手的检查项与工作流,显著降低企业内部的转化与培训成本,确保标准价值快速生效。,导致管理动作滞后于技术应用。

2026-03-10 18:35:27 332

原创 表格错位、文字扭曲、布局混乱?实测!这个生产级OCR文档解析工具真的能打!

如果你正在被复杂的文档解析困扰,或者想提升企业知识库的召回准确率,建议去TextIn官网申请一个试用Key,挑一篇你们最复杂的PDF,跟着实战手册跑一遍。信心满满推到生产,一接入真实业务文档——需要合并的表格乱合并对不齐,字母解析出来变成了数字,目录、正文、页眉页脚都混在一起、印章变成了黑方块……在基础文档结构化知识库的基础上,增加“决策”与“外扩”两个节点,大模型不再局限于对本地文档的简单总结与调用,根据要求联网输出更具深度的分析。领完整实战手册,官方还送 1000 页免费解析额度,教程和弹药都备齐了。

2026-03-05 19:02:36 354

原创 具身智能领域六大国产开源VLA大模型!谁将定义机器人的通用大脑?

具身智能行业,太需要一个真正能打、真正能用、真正开源的通用大脑了。随着宇树G1在春晚舞台大展拳脚,具身智能的竞争也从硬件军备赛迈入了大脑进化战。在近半年的时间内,中国力量集体爆发,宇树、小米、阿里、自变量、千寻、星海图等团队,相继开源各自的VLA具身大模型。本文将拆解这几大国产开源模型的硬核实力,看谁在卷操作精度,谁在卷实时反应,谁又在卷工业落地!原文链接:六大开源VLA模型。

2026-03-02 19:35:16 685

原创 OCR在真实场景“翻车”?面对跨页表格、密集表格、扭曲文档等难题,这个OCR文档解析工具太6了!

在文档解析真实应用场景中,我们面对的已不再是简单的文本文档,有大量数据在PDF、扫描件、图片、网页等非结构化文档中。从解析难度方面来讲,单拿其中一项表格识别,就需要处理多级嵌套、跨页跨度、合并拆分单元格,以及嵌入式图像公式等元素。比如论文的附录表格可能横框三四页,财务报表的表格可能分散在多个章节。最近开源的 DeepSeek-OCR 2 模型能够更精准地还原复杂文档的自然阅读逻辑,对表格识别的能力也再次提高。真实场景文档解析有多难?原文链接:100页复杂文档2秒完成解析!

2026-02-04 17:26:56 697

原创 只需一张图,无需训练、无需先验、无需提示、类别无关!这个通用物体计数模型即将开源!

基于示例的方法通过给定图像中的1-3个实例提供最强的指导,代表性的工作PseCo 将SAM的通用分割能力与CLIP的语义理解能力相结合。ABC123是首个多类别计数框架,它是一种基于Transformer的密度回归方法,能够在无需先验的情况下同时计数多种物体类型。今天介绍的OCCAM框架是真正类别无关的、理想的、可用于全自动物体计数系统的、以及目前最通用的解决方案。先验依赖型方法是类别无关计数领域的开山鼻祖,也是目前最成熟的技术路线。真正类别无关的、理想的、可用于全自动物体计数系统的解决方案。

2026-01-23 11:23:11 332

原创 推动高质量数据集建设,全国首部可信技术安全+数据合规标准来了!

为核心,旨在建立安全可控的技术基座与多主体协作规则,明确数据提供方、数据处理方、大模型研发机构、AI应用企业、技术支撑方以及法律合规机构等多元主体在可信空间数据协作中的协作规则、操作规范与风险防控机制。:提前掌握AI大模型可信数据协作的合规框架与操作要点,降低协作风险及合规成本,推动数据从资源向资产转化,助力高质量数据集建设,充分释放数据要素价值;:率先形成“技术安全+数据合规”的业务模式,构建高质量数据获取、共享、流通体系,开拓高价值创新应用场景,打造差异化竞争力,增强行业话语权;

2026-01-15 22:45:29 537

原创 文档解析结果脏乱差?零样本适配各类格式!这个OCR多模态解析工具相当给力!

easydoc-parse-flash模型可高速解析标题、文本、表格、公式,支持跨页合并,表格,适合快速处理且保留表格结构的场景。现在的文档解析模型越来越强大:从仅支持文本表格,扩展到二维码、印章、签名、音频、视频等多种元素;我们直接上传了一份文本相对模糊的合同文件,以模拟真实场景的光照等环境,在界面操作右侧选择不同的模型进行解析,如上图所示,Premium。,例如合同中的 “甲方名称”“合同金额”“有效期”“违约责任” 等核心要素,如下图所示,可以使用提示生成功能,输入指定的要素,。

2026-01-12 19:05:23 636

原创 VLM细粒度识别新范式!快慢思考赋能、无需训练、不建样本库!让CLIP细粒度识别精度暴涨15个点

那如果把模型换成你,你会怎么处理?人类通常不会直接给出答案,而是经历一个自然的认知过程:首先是快速筛查,先确定这大概是某种鸟,然后再精细观察“喙的形状、羽毛纹路”,通过细微特征的比对做出最终判断。这一过程恰好对应认知科学中的“双系统理论”:系统1:直觉快速,基于经验快速反应,但容易出错,系统2:深思熟虑,通过逻辑分析做出精准判断,但需要时间。而当前VLM的表现完美对应了“系统1”的特征:能够快速识别出合理的候选类别子集,却缺乏“系统2”的精细辨别能力,导致在相似类别间频繁出错。细粒度识别准确率低?

2026-01-05 19:01:18 325

原创 单靠大模型也翻车?缺陷识别准确率暴涨20%!清华AgentIAD:单一智能体框架,专门解决微小缺陷

在四个工业异常检测基准上进行评估,并将模型与基于MLLM和CLIP的方法进行比较,包括专有模型、开源VLM、微调的GRPO系统和基于提示的CLIP变体(AnomalyCLIP、UniVAD)。这种基于工具的多轮推理过程使智能体能够首先定位模糊区域,然后检索参考知识,最后得出可靠、可解释的结论——实现了比非工具单轮推理显著更高的准确性。而工业缺陷通常是细微的、异质的,并且位于杂乱背景的小区域内,这使得单次前向传播的检测器容易忽略细粒度异常。在面对开放域、未知类别的异常时,模型更是直接“趴窝”。

2025-12-21 17:39:59 566

原创 免训练开放词汇分割范式突破!将 SAM 3 零微调适配遥感图像分析领域,17个数据集上刷新SOTA

超高分辨率的遥感图像上的分割结果,原文链接:SAM3+遥感在之前谈到开放词汇分割方案时,必然离不开免训练的 CLIP 派系和 SAM 辅助派系两大类,但前者在精确定位方面常常面临挑战,后者则通常依赖于复杂的多阶段流程。典型的如遥感图像分析领域,上述问题更为突出。如何在包含成千上万密集小型目标(如车辆、小型建筑)与广阔无定形背景(如农田、水域)的复杂场景中,实现精准的像素级识别?

2025-12-15 18:50:44 1022

原创 VisionAgent 让目标检测、计数等任务如此简单!无需标注、仅输入文字提示、可适配任意场景

比如针对进一步地目标计数任务:“计算图像中的可乐罐的数量”,可能会使用该 florence2_object_detection 工具检测所有可乐罐,然后使用该 countgd_object_detection 工具计算检测到的罐子的数量。,这些工具是独立的模型或函数,用于完成特定任务,QwenVL、OCR、零样本计数、分割等模型均在组件中,可以调用任意的组装自己的任务。:识别目标基于其空间位置或与其他物体的关系,例如识别“冰淇淋上的雏菊”特定目标识别,在同类别中精准区分特走对象,确保精准识别。

2025-12-10 21:00:50 767

原创 补齐SAM3最后一块短板!无需Qwen3-VL等大模型当翻译,SAM-I 首次拥有复杂语义指令级推理能力

我们能否在保留 SAM3 通过大规模训练获得的强大概念召回能力的同时,使其能够解释更复杂的指令并定位相应的实例?可提示视觉分割范式中,用户提供点、框或掩码来引导模型为每个提示分割单个目标;可提示概念分割范式中,用户可提供“足球运动员”或“黄色巴士”等简短名词短语,使模型能够分割图像或视频中给定概念的所有实例;可提示指令分割范式中,专门面向现实世界的使用涉及远远超出简单名词短语的表达,模型能够遵循丰富、复杂的指令,同时保持其强大的概念级定位能力。

2025-12-08 19:11:19 993

原创 DINO、MAE离真正落地还差关键一步!MIT开源无需训练的特征上采样框架,让CV迎来分辨率自由时代?

是一种用于计算机视觉的通用特征上采样新方法,该架构可以一次训练并应用于任何视觉编码器,无论特征的维度或分辨率如何,其核心创新在于其在推理时的泛化能力,这是以往方法所不具备的。另外在效率方面,将每张图的优化时间缩短到约0.4秒,在语义分割、深度估计等多个像素级任务的基准测试中,其性能达到了最优。为了让它能完成像素级的预测任务,我们不得不为其配备一个庞大、复杂且训练成本高昂的解码器,来费力地还原出丢失的细节。它的做法非常巧妙:对于一张输入图片,先将其高分辨率的RGB图像缩小,模拟出低分辨率版本。

2025-12-02 20:39:30 883

原创 Waymo发布视觉E2E驾驶基准数据集!面向端到端驾驶的开放数据集,专攻0.03%概率的长尾场景!

Waymo 提出评估者反馈得分,一种与人类对齐的开放式评估指标。RFS 的核心思想是预测轨迹越符合专家偏好越好。首先生成候选轨迹:使用模型生成多达 64 条未来轨迹,聚类后保留约 12 条代表性路径。然后由人工标注与评分由专业评估员选出3 条关键轨迹,每条轨迹在安全、合法、反应时间、刹车必要性以及效率五个维度上打分。最后模型预测轨迹若落在某条参考轨迹的“信任区域”内,则获得其评分;超出则按指数衰减扣分,最低4分。真正的智能驾驶,不在于避开100次小颠簸,而在于躲开那1次致命碰撞。

2025-11-30 14:33:52 1069 1

原创 6.3k Star!复杂场景碾压PPOCR-VL?WPS团队开源文档解析新模型:为跨页、多栏、嵌入等图表而生!

从而完美还原复杂的图文表格。首先系统像侦探一样,先用一个目标检测模型在表格里“巡逻”一圈,

2025-11-25 21:13:41 861

原创 不止于单目深度估计!字节Seed团队开源万物深度估计 Depth Anything V3,统一视觉几何估计任务!

字节Seed团队推出DepthAnythingV3(DA3),旨在通过统一模型解决从任意视觉输入恢复3D结构的核心问题。DA3具备相机姿态估计、深度信息生成和视觉渲染三大能力,在多视图几何任务中性能提升35.7%,单目深度估计也超越前代。其创新在于采用标准DINOv2编码器和"深度-射线"联合预测目标,通过跨视图自注意力机制生成精确3D点云。该模型为机器人、自动驾驶等领域的3D视觉应用提供了更通用的解决方案。

2025-11-19 21:01:08 1403

原创 一行代码安装!继5万星Surya与Marker后,原作者再开源文档解析模型,面向复杂表格、手写、版式分析!

这种方法速度很快,但会遗漏复杂表格的细节,包括那些带有横向文本的表格。最近,它们的原作者团队悄无声息地发布了Chandra——一个在独立基准测试中SOTA的全新OCR模型(唯一遗憾的是没和PaddleOCR-VL对比),一个。它保留了文档的所有内容,包括表单、表格、脚注、列、数学公式,甚至手写痕迹,无论是物理习题集还是保险表格,该模型都能按照预期的方式重新组织所有内容。是一款高度精确的 OCR 模型,可将图像和 PDF 转换为结构化的 HTML/Markdown/JSON,同时保留布局信息。

2025-11-05 11:44:22 639

原创 这个开源的端到端OCR模型厉害了!覆盖全文档类型、全场景表格、全类型公式,推理速度4-7倍提升!

整页表格、内容极密表格、大量空单元格彩表、多表紧密排列、不规则合并单元格表、完全无线表——竞品出现“结构错误、结构丢失、内容丢失、表格分裂”等错误时,MinerU2.5 仍能输出正确结果。GOT、Ocean-OCR、olmOCR、dots.ocr 等用原生分辨率编码器统一识别文本、公式、表格、图表,但联合优化导致复杂版面精度下降,长文档幻觉问题突出。第二阶段,在全局版面先验的引导下,从原图截取关键区域,以原生分辨率进行精细内容识别,从而保留密集文本、复杂公式和表格中的细粒度细节。视觉模型的编码器初始化自。

2025-11-04 12:12:13 955

原创 2024年深度学习、计算机视觉与大模型面试题综述,六大专题数百道题目

本项目涵盖了大模型(LLMs)专题、计算机视觉与感知算法专题、深度学习基础与框架专题、自动驾驶、智慧医疗等行业垂域专题、手撕项目代码专题、优异开源资源推荐专题共计6大专题模块。我们将持续整理汇总2024年度最新的面试题并详细解析这些题目,希望能成为大家斩获offer路上一份有效的辅助资料。

2023-12-26 21:15:52 1156

原创 大模型实战:使用 LoRA(低阶适应)微调 LLM

LoRA:大型语言模型的低秩适应 通过使用低秩矩阵分解提出了这两个问题的解决方案。 可以减少 10,000 倍的可训练权重数量和 GPU 内存需求 3倍。

2023-12-18 17:25:18 1138

原创 模型部署系列:10x速度提升,Yolov8检测模型稀疏化——CPU上超500FPS

专注于让 YOLOv8 等深度学习模型在 CPU 上快速运行,DeepSparse在 FP32 下的速度快 4 倍,在 INT8 下的速度快 10 倍。

2023-12-14 15:10:37 3047 1

原创 有意思的损失函数:一文详细解释Yolov5中Objectness的重要性

**损失函数对不同的框进行不同的处理,最佳框与所有其他框之间的区分机制是 YOLO 损失的核心。**使用单独的对象置信度损失 objectness 来处理分数确实比将类概率 confidence 视为分数表现得更好,在SSD目标检测中考虑类概率作为置信度分数其效果要明显差于带置信度的Yolo模型。

2023-12-13 14:48:16 3595

原创 人工智能数据集可视化统计分析工具:快速了解你的数据集

Lightly Insights:可以轻松获取关于机器学习数据集基本洞察的工具,可以可视化图像数据集的基本统计信息,仅需提供一个包含图像和对象检测标签的文件夹,它会生成一个包含指标和图表的静态 HTML 网页。[1] 详细内容请参阅[2] 更多资料请参阅。

2023-12-11 17:40:41 1112

原创 算法工程师岗位面试必备,讲透深度学习面试题,详解人工智能生成式任务与AI大模型面试题

深度学习面试题,AIGC与大模型,视觉感知算法,Leetcode高频

2023-08-02 15:35:48 992

原创 【AI工具】 一款多SOTA模型集成的高精度自动标注工具(直接安装使用,附源码)

人工智能自动化标注工具

2023-06-08 09:19:29 2207 1

原创 【Pytorch】自定义模型、自定义损失函数及模型删除修改层的常用操作

自定义模型、自定义损失函数及模型删除修改层的常用操作

2023-06-07 11:37:51 1749

原创 【Pytorch】模型摘要信息获取、模型参数获取及模型保存的三种方法

模型摘要信息获取、模型参数获取及模型保存的三种方法

2023-06-06 10:46:42 1261

原创 PyTorch 提示和技巧:从张量到神经网络

深入研究 PyTorch 以及如何从头开始构建神经网络。

2023-06-05 11:27:32 892

原创 【单目3D】在自动驾驶中将 2D 物体检测提升到 3D

Lifting 2D object detection to 3D in autonomous driving

2023-06-02 15:28:43 1496

原创 【大模型】人工智能大模型在自动驾驶领域的应用

随着ChatGPT的火爆,大模型受到的关注度越来越高,大模型展现出的能力令人惊叹。

2023-06-01 11:47:41 2454

原创 【数据集】Cityscapes-流行的语义分割数据集

面向智能驾驶(辅助驾驶、自动驾驶)场景下的语义分割任务的基准数据集

2023-05-31 17:47:43 3673 1

原创 度量学习:使用多类N对损失改进深度度量学习

度量学习系列文章,N-pair损失的优化提升模型reid的能力

2023-05-31 16:13:59 2005

原创 开源框架MXNet | 环境变量配置(显存)

开源框架MXNet | 环境变量配置(显存)

2017-11-08 19:56:51 5612

原创 机器学习特征提取 | 自动特征工程featuretools

1、什么是Featuretools?为了能使框架普适,就像pandas用于数据准备或scikit-learn用于机器学习。链接:https://www.featuretools.com/

2017-11-07 11:41:34 8270 2

原创 目标检测 | SSD原理以及相关问题

SSD: Single Shot MultiBox Detectorintro: ECCV 2016 Oral arxiv: http://arxiv.org/abs/1512.02325 paper: http://www.cs.unc.edu/~wliu/papers/ssd.pdf slides: http://www.cs.unc.edu/%7Ewliu/papers/ssd_eccv

2017-09-28 14:52:15 7765

原创 深度学习_资料汇总链接(目标检测/可视化/目标识别/自然语言处理/OCR)

目标检测/可视化/目标识别/自然语言处理/OCR

2017-09-13 16:27:33 2633

原创 人脸识别 | 如何解析URL,并给出人脸检测结果

检测思想首先使用urllib库从URL获取图像地址,并将其转换为图像,然后调用cv自带的Haar人脸检测,判断图像中是否有人脸。

2017-07-07 14:10:04 1918

原创 图像分割 | FCN数据集制作的全流程(图像标注)

一 全卷积神经网络深度学习图像分割(FCN)训练自己的模型大致可以以下三步:1.为自己的数据制作label;2.将自己的数据分为train,val和test集;3.仿照voc_lyaers.py编写自己的输入数据层。其中主要是如何制作自己的数据label困扰着大家。补充:由于图像大小的限制,这里给几个图像Resize的脚本:(1)单张图片的resize# coding = utf-8 impor

2017-06-06 15:52:07 57226 13

深度学习入门全方位必备PPT

本文档由博主自己倾力打造,40页的PPT带你全面了解深度学习。里面覆盖许多链接,文档,资料。让你少走许多弯路。仅供自己学习使用,请勿其它用途。

2015-11-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除