自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1089)
  • 资源 (1)
  • 收藏
  • 关注

原创 Coursera吴恩达《深度学习》课程总结(全)

01 神经网络和深度学习(Neural Networks and Deep Learning)1-1 深度学习概论主要介绍:主要对深度学习进行了简要概述。首先,我们使用房价预测的例子来建立最简单的单个神经元组成的神经网络模型。然后,我们将例子复杂化,建立标准的神经网络模型结构。接着,我们从监督式学习入手,介绍了不同的神经网络类型,包括Standard NN,CNN和RNN。不同的神经网络模型适合处理不同类型的问题。对数据集本身来说,分为结构化数据和非结构化数据。近些年来,深度学习对非结构化数据的处理

2021-09-24 19:01:44 40234 4

原创 OpenCV与AI深度学习 | 实战 | 用Google Gemini实现目标检测(完整代码+步骤)​​

多模态 LLM 的一个更被低估的功能是它们能够生成边界框来检测对象。我记得我们向一些朋友展示您可以使用 Moondream 和 Qwen VL 检测物体,他们非常震撼。

2025-05-28 17:09:26 335

原创 GiantPandaLLM | 在SGLang中使用reasoning模型(建议收藏!)

在本文档中,我们将为希望快速上手SGLang的人提供一个实用资源。SGLang是一个高性能的LLM推理引擎,可以很好地扩展到大量GPU(https://lmsys.org/blog/2025-05-05-large-scale-ep/)。我们将使用新的Qwen3(https://github.com/QwenLM/Qwen3)模型系列,它在SGLang上获得了首日支持。在这篇博文中,我们将使用8B模型。如果你使用较小的GPU,请查看一些较小的Qwen模型,它们同样出色。

2025-05-28 13:27:12 458

原创 kaggle竞赛宝典 | 微调推理大模型的几种方案。

如何微调推理大模型?以Qwen3/DeepSeek-R1为例

2025-05-27 17:19:02 709

原创 集智书童 | YOPOv2-Tracker开源 | 端到端方法革新,跟踪提速10倍,扰动观测器破解传统框架延迟难题(建议收藏!)

为在杂乱环境中实现对不可预测目标的高效跟踪,先前工作在检测、映射、导航和控制等方面进行了一系列改进,以使整个系统更加全面。然而,这种分离的流程引入了显著的延迟,并限制了四旋翼的灵活性,尤其是在计算能力受限的机载设备上。相反,作者遵循“少即是多”的设计原则,力求简化流程同时保持有效性。在本工作中,作者提出了一种面向四旋翼的端到端敏捷跟踪与导航框架,该框架直接将传感器观测映射到控制指令。重要的是,利用导航和检测任务的多模态特性,作者的网络通过显式集成传统流程的独立模块来保持可解释性,而不是进行粗略的动作回归。具

2025-05-27 17:13:22 678

原创 CVHub | 目标检测和语义分割该如何走下去?清华团队为视觉大一统模型指明了方向。

在计算机视觉领域从"任务特化"向"统一开放"的演进历程中,我们见证了从手工特征工程到深度学习范式,再从闭集假设到开放世界理解的多次技术跨越。

2025-05-26 13:44:25 516

原创 周报 | 25.5.19-25.5.25文章汇总

本周技术文章汇总涵盖多个领域:DefMamba提出多尺度Backbone架构提升视觉任务性能;MatAnyone实现高精度视频抠图;HGO-YOLO以极小参数量实现高效目标检测;Docker部署实战教程详解AI项目容器化;另有LLM微调指南、OCR评测体系、Python内存优化等实用内容。同时包含人工智能术语大全、正态分布解析等基础知识,以及YOLOv12-BoT-SORT-ReID在反无人机赛事中的突破表现。技术干货丰富,适合开发者学习参考。

2025-05-26 13:40:29 289

原创 菜鸟学Python | 如何用DeepSeek做海报

DeepSeek功能非常强大,主要是推理能力和理解能力很强,今天小编给大家分享一下如何用deepseek做海拔,这个其实对于设计行业或许新媒体行业是非常刚需的,现在有了deepseek 可以非常轻松的搞定,一起来看一下。

2025-05-24 01:30:00 882

原创 集智书童 | YOLOv12-BoT-SORT-ReID 开源 | Strong-Baseline架构,无特征增强问鼎反无人机挑战赛

本文提出了一种基于热红外视频的多无人机跟踪任务强 Baseline 。通过将YOLOv12与BoT-SORT集成,Strong-Baseline在 Baseline 之上有了显著提升。在实验结果中讨论的训练和推理过程中的额外策略表明,Strong-Baseline有潜力在Track 3性能中排名前三。作者还确定了与初始试验相比影响性能的关键因素:模型大小贡献约0.003,跟踪缓冲区大小影响分数约0.0001,图像输入大小提供了最显著的影响,分数增加约0.1,ReID模块增加约0.01。虽然Strong-Ba

2025-05-24 01:30:00 1631

原创 python | 终于把统计学中的正态分布搞懂了!!

正态分布是统计学中最常见的概率分布,也被称为高斯分布。它的图形呈现为一个对称的钟形曲线,这个曲线在我们的日常生活中非常常见。许多自然现象都符合或接近正态分布,比如人的身高、考试成绩、测量误差等。

2025-05-23 20:07:52 876

原创 阿信AI实验室 | 56个核心术语+高清架构图:一文看透人工智能全貌!

在学习的时候,有个习惯,需要对学习的事物有个完整的轮廓,这样能够知道自己学到的知识是处于整个生态或结构的哪个部分。我在网络上搜索了很多关于AI的架构图之后,并没有找到理想的一个图示,于是借助于AI工具以及自己的一些认知,绘制人工智能架构图,并梳理其中的知识点。

2025-05-23 20:05:24 1000

原创 江大白 | AI项目部署必备,Docker 万字实战教程:从入门到掌握(建议收藏!)

在AI项目部署过程中,Docker的使用是一个必备的技能,而Docker 是一个开源的应用容器引擎,它允许开发者将应用以及依赖打包到一个可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口。本文将带你从Docker的基本概念开始,一步步深入到实际应用。

2025-05-22 17:16:02 1216

原创 集智书童 | HGO-YOLO 突破硬件限制 | 仅 4.6MB 参数实现 87.4% 精度+56 FPS 实时检测

准确且实时的目标检测对于异常行为检测至关重要,尤其是在硬件受限的场景中,平衡准确性和速度对于提升检测性能至关重要。本研究提出了一种名为HGO-YOLO的模型,该模型将HGNetv2架构集成到YOLOv8中。这种组合通过GhostConv简化模型复杂性的同时,扩大了感受野并捕捉了更广泛的特征。作者引入了一个轻量级的检测Head,OptiConvDetect,它通过参数共享有效地构建了检测Head。

2025-05-22 17:12:27 915

原创 python | Python 内存优化识别循环引用的3种方法

Python作为一种高级编程语言,为开发者提供了自动内存管理机制。在处理复杂数据结构时,循环引用问题可能导致内存泄漏,影响程序性能。本文将详细介绍循环引用的概念及其排查方法,帮助开发者优化Python程序的内存使用。

2025-05-21 17:27:06 813

原创 信息化与数字化 | 万字长文:OCR/多模态大模型评测体系全景

本文将系统梳理当前主流的多模态评测基准,包括 OCRBench v2、SEED-Bench-2-Plus、ConTextual、Fox、TableVQA-Bench、ComTQA、MMTab-eval、ChartY、ChartX、MMC、CC-OCR、Video-MME、MME、BLINK、ChEF、GenCeption、DesignQA、MMT-Bench与Omni AI OCR Benchmark 等,通过对其提出背景、作者机构、任务设计、评估指标、模型适用性等方面进行分析比较,帮助读者全面理解当前多模

2025-05-21 14:37:08 1287

原创 数据思维 | 微调大型语言模型 (LLM)建议收藏!

大语言模型(LLMs)已极大地革新了自然语言处理(NLP)领域,在文本生成、翻译、摘要以及问答等任务中表现出色。然而,这些模型并非总是适用于特定的领域或任务。

2025-05-20 13:42:56 1055

原创 周报 | 25.5.12-25.5.18文章汇总

本周的CSDN博客周报涵盖了多个技术领域的前沿文章。集智书童探讨了CPLOYO设计,通过C2f双模块和KAN网络提升检测精度和泛化能力。AI生成未来系列深入分析了智能体人工智能的多模态交互技术。江大白和集智书童分别对YOLO系列和Post-Training范式进行了全面综述。Coggle数据科学研究了LLMs在时间序列异常理解中的应用。机器之心介绍了昆仑万维开源的Matrix-Game,展示了单图生成游戏世界的技术。此外,还有关于大模型量化实践、Python正则表达式、图像增强库Albumentations

2025-05-20 13:40:25 298

原创 阿旭算法与机器学习 | 炸裂!最新视频抠图神器MatAnyone:连头发丝都不放过,赶紧体验一下吧!

MatAnyone 是南洋理工大学 S-Lab 和商汤科技的研究成果,是专门为目标指定的视频抠图打造的强大框架。它借助基于记忆的范式,引入了一致记忆传播模块,这个模块就像是视频抠图的 “智能管家”,通过区域自适应记忆融合,巧妙地整合前一帧的记忆,确保核心区域语义稳定的同时,还能完美保留物体边界的精细细节。

2025-05-19 21:18:31 1039

原创 极市平台 | DefMamba来袭:多尺度Backbone与可变形Mamba模块助力视觉任务新高度!

本文介绍一个种新型视觉基础模型DefMamba,通过多尺度 Backbone 结构和可变形 Mamba 模块,结合动态扫描策略(DS),显著提升了视觉任务的表现。该模型在图像分类、目标检测和语义分割等任务中均优于现有方法,展现了强大的特征提取和细节感知能力。

2025-05-19 16:57:04 1219

原创 数据派THU原创|DeepSeek动态知识更新——以DeepSeek-R1为例

在信息爆炸的时代,知识的动态更新成为了各行各业不可或缺的一环。DeepSeek推出的DeepSeek-R1系统凭借创新的动态知识更新技术,成功打破了传统知识图谱的静态局限,实现了从静态知识表示到动态实时推理的跨越。本文将深入科普DeepSeek的动态知识更新技术,并通过代码、图片及扩充内容进行详细解释。 

2025-05-18 15:11:23 586

原创 码科智能 | 视频分割也行了!Meta“分割一切AI”二代SAM2:模型代码、权重以及数据集通通开源!

Meta“分割一切AI”二代SAM2的诞生代表了领域内的一次重大进步。相较于上一代,它的能力从图像分割拓展到视频分割。为静态图像和动态视频内容提供实时、可提示的对象分割,将图像和视频分割功能统一到一个强大的系统中。

2025-05-18 15:02:33 448 1

原创 OpenCV与AI深度学习 | 深度学习懒人图像增强库——Albumentations

对于任何机器学习应用来说,数据集的大小都至关重要。数据集越大,模型的学习效果就越好,推理能力也就越强。尤其是图像分类模型,需要训练数据集具有高度的多样性才能确保令人满意的性能。

2025-05-17 00:30:00 975

原创 Ai学习的老章 | 【教程】大模型量化界翘楚:unsloth

Unsloth 出圈是 DeepSeek-R1 爆火的时候,它发布了最小 1.58 位量化版本的 R1,把 DeepSeek-R1 这个非常大的模型(它有 6710 亿个参数,也就是 671B)通过“量化”把原本 720GB 的模型压缩到只有 131GB 的大小。

2025-05-17 00:15:00 775

原创 python | Python 正则表达式实战:文本清洗常用模式

在数据处理领域,文本清洗是数据预处理的关键环节。原始文本常包含冗余的特殊字符、格式错误、无效符号或敏感信息,例如网页中的HTML标签、日志文件中的乱码、用户输入的表情符号等。正则表达式(Regular Expression)作为文本处理的强大工具,能通过定义模式快速匹配、提取、替换目标文本,极大提升清洗效率。Python的re模块提供了完整的正则表达式支持,结合其简洁的语法和灵活的API,成为处理文本清洗任务的首选方案。

2025-05-16 17:17:30 945

原创 0Ai学习的老章 | 极简教程,大模型量化实践,1张4090跑QwQ?

如题。

2025-05-16 17:13:44 1025

原创 机器之心 | 生成视频好看还不够,还要能自由探索!昆仑万维开源Matrix-Game,单图打造游戏世界

世界模型的进度条,最近坐上了火箭。去年 11 月,两家创业公司打造的 Oasis,首次在开源世界模型中实现了实时、可玩、可交互。生成的虚拟环境不仅包含画面,也体现出了对物理和游戏规则的理解。

2025-05-15 15:49:48 1038

原创 Coggle数据科学 | ICLR 2025:LLMs能否理解时间序列异常?

大型语言模型(LLMs)在时间序列预测领域已经受到广泛关注,但它们在异常检测方面的潜力尚未得到充分探索。本研究旨在调查LLMs是否能够理解和检测时间序列数据中的异常,重点关注零样本(zero-shot)和少样本(few-shot)场景。

2025-05-15 14:47:55 1116

原创 江大白 | 2万字长文,YOLOv1-YOLOv11的十年全面进化综述!(建议收藏)

在这篇综述中,探讨了从初代YOLOv1到最新的YOLOv11模型的发展历程。通过回顾这十年的进步,我们突出了每个版本的关键改进及其在公共安全、汽车技术、医疗保健、工业制造和零售五个重要应用领域的影响。本文概述了每次迭代在检测速度、准确性和计算效率方面的显著增强,同时也解决了早期版本所面临的特定挑战和限制。此外,我们识别了当前YOLO模型能力的不足,并提出了未来研究的潜在方向。我们预测,YOLO的发展将向多模态数据处理转变,利用大语言模型和自然语言处理的进步来增强目标检测系统。这种融合有望拓宽YOLO模型的实

2025-05-14 17:05:00 985

原创 集智书童 | 5万字带你领略Post-Training的5大范式 | DeepSeek-R1领衔构建LLM后训练新生态(建议收藏!)

本文首次对训练后语言模型(PoLMs)进行了全面调查,系统地追踪了其从2018年ChatGPT的对齐起源到2025年DeepSeek-R1的推理里程碑的发展轨迹,并肯定了它们在推理精度、领域适应性和伦理完整性方面的变革性影响。作者评估了广泛的技术(即微调、对齐、推理、效率和集成与适应),综合了它们在专业、技术和交互领域的贡献,从法律分析到多模态理解。

2025-05-14 16:13:38 1537

原创 AI生成未来 | 智能体人工智能(AGENT AI)全面综述:探索多模态交互的前沿技术(四)

智能体人工智能的一个重要目标是开发能够在多种模态、领域中运行,并弥合模拟与现实之间差距的通用智能体。这需要智能体能够处理不同类型的输入,如视觉、语言和音频信息,并在不同的环境中有效地执行任务,无论是虚拟的还是现实世界的。

2025-05-13 16:48:57 673

原创 AI生成未来 | 智能体人工智能(AGENT AI)全面综述:探索多模态交互的前沿技术(三)

游戏为测试大语言模型和视觉语言模型的智能体行为提供了独特的 “沙盒” 环境,推动了它们在协作和决策能力方面的边界。我们特别描述了三个领域,突出展示了智能体与人类玩家和其他智能体交互的能力,以及它们在环境中采取有意义行动的能力。

2025-05-13 16:47:34 1018

原创 集智书童 | 超越 YOLOv9 和 RT-DETR | CPLOYO设计C2f双模块+KAN网络,提高检测精度,并增强泛化能力

物联网(IoT)技术在肺结节检测中的应用显著提升了检测系统的智能化和实时性。目前,肺结节检测主要关注实性结节的识别,但不同类型的肺结节对应着各种形式的肺癌。多类型检测有助于提高整体肺癌检测率和治愈率。

2025-05-12 16:54:56 1208

原创 周报 | 25.5.5-25.5.11文章汇总

本周的CSDN博客周报汇总了多篇技术文章,涵盖了数据结构与算法、Transformer模型解析、Redis分布式锁实现、GAN损失函数、大语言模型引擎、YOLOv10姿态检测、Python事件驱动模式以及大模型OCR识别等内容。这些文章不仅提供了深入的技术解析,还附有代码实现,适合技术爱好者收藏学习。文章结尾鼓励读者点赞、收藏和评论,以支持作者继续创作,并邀请读者推荐公众号,共同学习和进步。

2025-05-12 16:46:09 339

原创 机器学习与数学 | 本地部署大模型实现扫描版 PDF 文件 OCR 识别,笔记本可跑

在使用大模型处理书籍 PDF 时,有时你会遇到扫描版 PDF,也就是说每一页其实是图像形式。这时,大模型需要先从图片中提取文本,而这就需要借助 OCR(光学字符识别)技术。

2025-05-11 11:03:46 1016

原创 python | nicegui,一个非常好用的 Python 库!

nicegui是一个Python库,为开发者提供了一种极其简便的方式来构建现代化Web用户界面。与传统Web开发不同,使用NiceGUI无需编写HTML、CSS或JavaScript代码,开发者只需使用熟悉的Python语法即可创建响应式、美观的Web应用。NiceGUI基于FastAPI和Socket.IO构建,具备高性能和实时通信能力,同时保持极简的API设计理念。

2025-05-11 11:00:14 713

原创 CV技术指南 | 动态视觉Backbone!港大团队开源TransXNet,入选顶刊TNNLS 2025

与以往的卷积和 self-attention 混合模块或全局与局部信息融合模块不同,D-Mixer 专注于动态性的捕捉。具体来说,D-Mixer 能够利用网络上一层的 feature maps 信息,生成用于提取当前 feature maps 的全局和局部动态权重,从而显著增强模型对多尺度特征的动态表征能力。 

2025-05-10 01:00:00 831

原创 python | Python 事件驱动:观察者、发布 - 订阅模式的代码实现与场景对比

事件驱动编程是一种编程范式,程序的执行流程由事件的发生来决定。事件可以是用户的操作,如鼠标点击、键盘输入,也可以是系统发生的特定状况,像定时事件、网络数据到达等。在事件驱动编程里,程序会等待事件的触发,接着执行对应的事件处理程序。这种编程方式能让程序及时响应外部变化,增强程序的交互性与实时性。

2025-05-10 00:30:00 1466

原创 OpenCV与AI深度学习 | 使用 YOLOv10 实现姿态检测

姿态估计就是从给定的输入图像中识别出称为关键点的特殊坐标。如上图所示,人体关节、面部特征就是关键点。从技术上讲,人工智能算法必须从大量带注释的图像中学习这些关键点的物理表征,然后在新的未见过的图像上预测这些关键点。

2025-05-09 15:06:02 676

原创 架构师炼丹炉 | 大语言模型引擎全解析:Transformers、vLLM、Llama.cpp、SGLang、MLX 和 Ollama

本文将带你深入了解 Transformers、vLLM、Llama.cpp、SGLang、MLX 和 Ollama 这些引擎,帮助你找到最适合的工具,释放大语言模型的全部潜力!

2025-05-09 15:00:09 1025

原创 数据派THU | 9个主流GAN损失函数的数学原理和Pytorch代码实现:从经典模型到现代变体(建议收藏!)

生成对抗网络(GANs)的训练效果很大程度上取决于其损失函数的选择。本研究首先介绍经典GAN损失函数的理论基础,随后使用PyTorch实现包括原始GAN、最小二乘GAN(LS-GAN)、Wasserstein GAN(WGAN)及带梯度惩罚的WGAN(WGAN-GP)在内的多种损失函数。

2025-05-07 16:58:00 964

全国省-市-区城市经纬度汇总.csv

简介:全国主要区县城市经纬度汇总。我国省级行政区划分:23个省、5个自治区、4个直辖市、2个特别行政区,合计34个省级行政区。 省:河北省、山西省、辽宁省、吉林省、黑龙江省、江苏省、浙江省、安徽省、福建省、江西省、山东省、河南省、湖北省、湖南省、广东省、海南省、四川省、贵州省、云南省、陕西省、甘肃省、青海省、台湾省。 自治区:内蒙古自治区,广西壮族自治区,宁夏回族自治区,新疆维吾尔自治区,西藏自治区。 直辖市:北京市,天津市,上海市,重庆市。 特别行政区:香港特别行政区,澳门特别行政区。

2020-09-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除