自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(135)
  • 资源 (12)
  • 收藏
  • 关注

原创 MinerU 本地部署完整指南:从零构建你的私有文档智能处理系统

摘要: MinerU是一款开源本地化文档解析工具,可将PDF、Word等文件智能转换为结构化Markdown,保留表格、公式、图片等元素。其核心优势包括: 隐私安全:完全离线处理,避免云端数据泄露风险; 高精度解析:基于深度学习还原文档逻辑结构,支持多格式输入; 易集成:提供RESTful API,适合金融、医疗等敏感场景。部署需Python 3.9+环境,支持CPU/GPU运行,推荐配置16GB内存及NVIDIA显卡。通过命令行或Docker即可快速启动,适用于知识库构建、RAG系统预处理等。

2025-12-27 10:11:04 123

原创 大模型中的知识图谱嵌入:融合、增强与协同推理

大模型不是知识的终点,而是通往认知智能的桥梁。知识图谱嵌入,作为连接符号主义与连接主义的纽带,正在重塑大模型的能力边界。未来的 AI 系统,既要有“海量记忆”,也要有“清晰逻辑”;既能“天马行空”,也能“言之有据”。正如 Alan Turing 所言:“我们想要的是一台能从经验中学习的机器,而不是一台只能执行固定指令的机器。”而知识图谱嵌入,正是让大模型“学得更聪明、说得更靠谱”的关键钥匙。

2025-12-26 11:38:20 91

原创 知识图谱:构建机器认知世界的基石

摘要: 知识图谱(KG)是以图结构表示知识的语义网络,通过实体(节点)和关系(边)构建结构化知识库,支持语义推理与关联发现。其发展经历了从语义网络、专家系统到工业应用(如Google知识图谱)的演进。核心构建流程包括知识抽取、融合、存储、推理及动态更新,关键技术挑战涵盖数据稀疏、多语言对齐和时效性等问题。知识图谱在智能搜索、推荐系统、金融风控、医疗等领域广泛应用,未来将与大语言模型(LLM)深度融合,增强AI的可解释性与事实准确性。开源工具(如Neo4j、Wikidata)和领域适配是重要发展方向。

2025-12-25 08:38:59 183

原创 Chatflow 与 Workflow:对话式智能与结构化流程的深度对比

本文系统对比了Chatflow(对话流)与Workflow(工作流)两种智能系统范式。Workflow是面向确定性任务的静态执行模型,强调可靠性与结构化;Chatflow则是动态交互的对话管理模型,注重用户体验与灵活性。文章从定义、架构、交互模式、技术实现等方面分析了两者的核心差异,并指出它们分别适用于后台自动化与前端交互等不同场景。最后提出融合趋势,强调通过互补结合可构建更强大的智能系统,并给出选型指南。两种范式各有所长,应根据具体需求选择或结合使用。

2025-12-19 09:09:37 41

原创 Workflow 与 Agent:智能系统构建范式的深度对比

摘要: Workflow(工作流)与Agent(智能体)是构建智能系统的两种核心范式。Workflow基于预定义流程,强调确定性、可审计性,适用于金融、医疗等需强一致性的场景;Agent则具备自主决策能力,适合开放域问题求解和创意任务。两者在架构、执行机制、适用场景及运维上存在显著差异:Workflow效率高、易调试,但灵活性低;Agent动态规划能力强,但资源消耗不可控。未来趋势是融合两者优势,通过“结构化流程+动态决策”实现智能工作流(Agentic Workflow),在稳定性和创新性之间寻求平衡。

2025-12-19 08:38:11 139

原创 向量数据库大对决:Pgvector、Redis、Milvus 与 Qdrant 全面深度对比

随着AI应用的普及,向量数据库成为关键技术组件。本文对比分析四大主流向量数据库:Pgvector、Redis、Milvus和Qdrant。首先介绍了向量数据库的核心概念,包括近似最近邻搜索算法(HNSW、LSH等)和关键性能指标(查询延迟、召回率等)。然后重点分析了Pgvector作为PostgreSQL扩展的特性,包括其向量数据类型、索引支持和距离函数,并评估了其在不同数据规模下的性能表现。

2025-12-18 16:08:45 47

原创 Context Pruning:大语言模型推理效率的革命性优化技术

上下文剪枝:优化大语言模型推理效率的新范式 随着大语言模型上下文窗口的不断扩展,上下文膨胀导致的计算资源消耗已成为关键瓶颈。本文系统探讨了Context Pruning技术,通过智能筛选高价值上下文信息来提升推理效率。研究揭示了Transformer架构O(n²)复杂性的根本挑战,指出上下文信息价值分布不均的特性为剪枝提供了理论基础。文章详细分析了静态剪枝、动态剪枝和基于学习的剪枝等核心方法,比较了它们在计算效率与输出质量间的权衡。

2025-12-18 11:21:43 110

原创 Milvus 向量数据库部署方案全景指南:从单机开发到生产级高可用集群

本文系统介绍了Milvus向量数据库的四大部署方案:嵌入式开发利器Milvus Lite、单机简易部署Standalone模式、生产级高可用Cluster模式以及全托管SaaS服务Zilliz Cloud。针对不同应用场景(开发测试、小型应用、大规模生产环境),详细分析了各模式的适用条件、资源配置要求和部署步骤,并提供了关键配置示例。文章强调正确选择部署方案对系统性能至关重要,帮助开发者根据向量规模、QPS和高可用需求,选择最优部署方式,实现资源优化与稳定运行。

2025-12-18 09:14:47 109

原创 混合检索(Hybrid Search):构建下一代 AI 搜索与 RAG 系统的核心范式

摘要:混合检索技术正成为大语言模型时代信息检索的关键范式,通过融合稀疏向量(如BM25)的关键词精确匹配与稠密向量(如BERT)的语义理解能力,解决传统检索的局限性。文章系统探讨了混合检索的理论基础、技术演进(从加权融合到统一表示模型)、主流实现工具(Elasticsearch、Milvus等)及工程实践,并指出其在RAG、电商推荐等场景中的显著优势。研究表明,混合检索能提升12-18%的检索效果,降低30%的幻觉率,成为平衡召回率与准确率的理想解决方案。

2025-12-18 08:58:04 466

原创 Milvus 向量数据库的发展历程:从开源项目到全球 AI 基础设施的演进之路

摘要:本文系统梳理了开源向量数据库Milvus从2019年诞生至今的技术演进历程。作为专为AI应用设计的向量数据库,Milvus经历了从实验室原型到全球超3000家企业采用的跨越式发展。文章详细分析了其架构从单机版到云原生微服务的重大变革,功能从基础相似性搜索到支持RAG、多模态检索等复杂场景的持续扩展,以及生态从单一数据库到完整工具链的完善过程。同时探讨了Milvus在AIGC时代的技术战略和未来发展方向,展现了其如何成长为AI基础设施领域的关键组件。

2025-12-18 08:53:38 86

原创 Milvus 混合检索:构建下一代 RAG 与多模态应用的核心引擎

摘要:随着大语言模型和生成式AI的快速发展,检索增强生成(RAG)成为主流架构。传统单一向量检索在语义覆盖和关键词匹配方面存在局限。Milvus v2.3引入混合检索技术,结合稀疏向量与密集向量的优势,显著提升检索性能。本文详解Milvus混合检索的技术原理、应用场景及实现方法,并以BGE-M3模型为例演示如何构建高性能混合检索系统,为RAG和多模态AI提供更强大的检索能力。

2025-12-18 08:39:20 185

原创 超越幻觉:Dify 中 RAG 与知识库的深度解析与工程实践

摘要: 大型语言模型(LLM)面临"幻觉"问题,检索增强生成(RAG)通过结合外部知识库提升回答准确性。Dify平台将RAG流程封装为易用的知识库功能,支持文档上传、分块、向量化及检索,并可与AI应用绑定。其核心流程包括:用户提问→向量化检索→结果筛选→增强提示→LLM生成答案。Dify通过可视化配置降低了RAG应用开发门槛,使LLM能基于最新、可靠数据生成回答,适用于客服、金融等专业场景。

2025-12-17 10:16:49 255

原创 SGLang:高效部署大语言模型的新范式

摘要: SGLang(Structured Generation Language)是一种新型大语言模型推理框架,通过结构化提示和运行时优化解决传统部署中的效率瓶颈。其核心优势包括:1)结构化提示编程,支持JSON等格式约束,提升生成准确率;2)声明式编程模型,简化开发流程;3)集成RadixAttention、分块预填充等优化技术,吞吐量可达vLLM的2-5倍。部署流程涵盖环境配置、模型加载及服务启动,支持多GPU并行和草稿解码加速。SGLang兼容OpenAI API,适用于高并发生产场景。

2025-12-17 09:19:23 79

原创 Llama.cpp 与 vLLM:大模型部署的两种主流路径对比

本文对比了两种主流大模型部署方案Llama.cpp和vLLM的核心差异。Llama.cpp基于C/C++,专注在消费级硬件上通过量化实现低资源占用,适合边缘设备和本地推理;vLLM则基于PyTorch,利用PagedAttention技术优化GPU显存管理,专为高并发API服务设计。测试显示,vLLM在GPU上的吞吐量可达3000+ tokens/s,远超Llama.cpp的80 tokens/s,但后者仅需6GB内存即可运行7B模型。

2025-12-16 16:30:53 221

原创 vLLM:高效部署大语言模型的利器——从原理到实战

摘要: vLLM是一款高效的大语言模型推理引擎,通过创新的PagedAttention技术(受操作系统分页机制启发)显著提升推理性能,相比传统方案吞吐量提高10-24倍,显存利用率超90%。其核心优势包括消除显存碎片、支持动态批处理和KV缓存共享。vLLM支持离线批处理和兼容OpenAI的在线API,可部署于多GPU环境(张量并行)并集成量化技术(如AWQ)以降低显存消耗。安装简便,适用于Linux系统,是部署大模型的高效解决方案。

2025-12-16 15:43:28 190

原创 从零开始:使用 llama.cpp 高效部署大语言模型的完整指南

摘要:本文详细介绍了如何使用llama.cpp在消费级硬件上高效部署大型语言模型。从环境搭建、模型转换到量化压缩和推理优化,提供了完整的实践指南。重点包括:1)支持多种操作系统和硬件环境;2)模型量化技术(如Q4_K、Q5_K)显著降低资源需求;3)命令行推理与API服务部署方法;4)性能调优技巧。通过量化技术,7B参数模型可压缩至4GB左右,在普通笔记本上实现流畅运行,为本地AI应用提供了经济高效的解决方案。

2025-12-16 15:29:45 272

原创 mcp初探

本文介绍了MCP服务的部署与Dify平台配置过程:1)通过Python编写MCP服务代码(mcp_test.py),实现获取系统时间功能;2)配置环境依赖并启动服务;3)在Dify平台添加MCP服务并配置IP地址;4)通过创建工作流测试服务连通性。整个流程包含服务端部署和平台集成两个主要环节,最终实现系统时间查询功能的自动化工作流调用。

2025-09-16 17:22:20 170

原创 mineru+docker+dify实现文档识别

本文介绍了通过Docker方式部署MinerU并与Dify集成的完整流程。首先下载源码和Dockerfile构建mineru-sglang镜像,然后通过docker-compose启动网页界面、API和加速服务。接着在Dify中安装MinerU插件并进行授权配置,需修改.env文件中的FILES_URL参数。最后演示了在Dify工作流中成功解析PDF文件内容的操作。该方法比源码安装更便捷,适合需要快速部署MinerU的用户。

2025-09-16 14:25:28 550

原创 mineru+dify实现文档识别

本文介绍了Mineru和Dify两款工具在文档识别与处理中的协同应用。Mineru作为高性能OCR工具,提供高精度文本识别和多语言支持;Dify则是强大的数据处理平台,支持多种数据源和可视化工作流设计。通过整合二者,可实现从文档扫描到数据处理的自动化流程,显著提升工作效率。文章详细说明了安装配置步骤、API服务启动方法以及在Dify中创建工作流的实践指南,为数字化转型中的文档处理提供了完整解决方案。

2025-09-15 14:28:21 274

原创 Dify自定义插件

Dify插件CLI工具安装与使用指南:本文介绍了如何安装和使用Dify插件CLI工具进行插件开发。主要内容包括:1) 下载并安装CLI工具;2) 常用指令说明;3) 创建插件项目的完整流程,包括项目初始化、语言选择、类型设定和权限配置;4) 项目目录结构说明;5) 环境变量配置和插件运行方法。该工具支持Python开发,可创建不同类型的插件(如Tool、Model等),并提供了详细的权限控制选项。安装测试成功后,开发者可通过简单的命令快速创建和运行插件项目。

2025-09-11 09:12:21 277

原创 探索大模型的前沿:从GPT到LLAMA,看看AI如何改变世界

摘要:大型语言模型(LLMs)如GPT和LLAMA正深刻改变人工智能领域。GPT系列以出色的文本生成能力著称,而LLAMA则凭借多语言支持和高效压缩技术脱颖而出。核心技术包括变压器架构、大规模预训练和模型压缩等。这些模型已应用于医疗、金融和教育等领域,显著提升效率。然而也面临计算成本高、数据偏见等挑战。未来发展方向包括多模态交互和通用AI,需平衡技术创新与伦理约束,确保AI发展造福人类社会。(149字)

2025-09-09 13:46:36 149

原创 Windows禁止更新

通过修改注册表可大幅延长Windows更新暂停时间。方法:1)运行regedit找到HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\WindowsUpdate\UX\Settings;2)新建32位QWORD值FlightSettingsMaxPauseDays;3)输入超大数值(如10000天约27年)并设为十进制。重启后查看更新设置即可生效,实现"准永久"暂停更新,避免激进关闭带来的系统风险。

2025-09-09 11:55:57 625

原创 Ragflow 本地化部署

Ragflow本地部署指南:1)安装Docker并启动服务;2)克隆Ragflow仓库;3)选择合适版本进行安装(推荐使用老版命令);4)解决可能出现的GPU驱动错误;5)修改端口配置后启动服务,通过8888端口访问Web界面。注意:国内镜像加速可能引发ES连接问题,GPU版本需硬件支持。

2025-08-12 09:41:15 239

原创 linux下部署 dify,并配置本地ollama大模型

本文介绍了Dify平台的安装配置及Ollama模型接入方法。首先通过GitHub获取源码,配置环境变量后使用Docker启动服务,访问80端口完成管理员账号设置。在模型配置部分,详细说明了Ollama的连接步骤,包括填写模型名称、服务地址、上下文长度等参数,并特别指出多模态模型需勾选Vision支持。针对高版本Dify可能出现模型不显示的问题,给出了解决方案文中提供了完整的配置示例和常见问题处理方法。

2025-08-11 19:26:14 888

原创 SGLang vs vLLM vs Ollama:三大LLM工具深度对比与选型指南

本文对比分析了当前三大主流大语言模型工具SGLang、vLLM和Ollama的核心特性与技术差异。SGLang擅长结构化生成控制,vLLM以生产级性能见长,Ollama则侧重本地开发便利性。通过架构解析、性能测试和功能对比,为开发者提供选型建议:本地开发优先Ollama,需要复杂逻辑控制选择SGLang,企业级部署推荐vLLM。文章还探讨了工具组合使用策略及未来发展趋势,建议根据项目阶段需求灵活搭配,以平衡开发效率与运行性能。

2025-08-11 14:38:52 538

原创 使用 Python 和 eFinance 实现 A 股历史数据大规模下载与存储

随着金融市场的快速发展,获取并存储高质量的股票数据成为许多quant研究者、数据分析师以及投资者的核心需求。本文将详细介绍如何利用Python和eFinance(东方财富)API,实现A股所有股票的历史行情数据大规模下载,并将其存储到SQLite数据库中。通过这一指南,您可以轻松构建自己的金融数据仓库,为后续分析和研究奠定坚实基础。金融数据是量化分析和算法交易的基础,而高质量的历史数据是构建可靠模型的关键。通过以上步骤,您可以轻松构建自己的A股历史数据仓库,为未来的分析与研究奠定坚实基础。

2025-07-28 08:44:37 1563

原创 大模型发展与应用详解:从技术基础到实际案例探析

大模型凭借其强大的自然语言处理能力,正以前所未有的方式重塑我们的生活和工作。在未来的道路上,如何在技术创新与伦理约束之间找到平衡,将是每一个研究者和决策者的重要课题。在当今的人工智能领域,大规模语言模型(Large Language Models,LLMs),简称大模型,正如一颗新星般闪耀。大模型指的是基于深度学习技术,通过海量数据训练,能够理解和生成自然语言的模型。一家投资公司利用大模型分析海量市场数据,每日生成的财经新闻摘要精准识别出潜在的投资机会和风险信号,帮助投资者做出更明智的决策。

2025-07-25 17:46:17 401

原创 yolov13 训练自己的数据集

标注要求:生成 `.txt` 文件,每行格式 `[class_id] [x_center] [y_center] [width] [height]`(归一化坐标)。- CUDA 内存不足:减小 `batch` 或 `imgsz`(如 640→416),启用 `half=True`(半精度)。- 数据集路径错误:检查 `.yaml` 中 `path` 是否为绝对路径,或改用相对路径(如 `../datasets`)。- 训练中断恢复:设置 `resume=True` 并指向 `last.pt`。

2025-07-21 14:59:51 453

原创 SiamFC 算法详解

SiamFC作为孪生网络跟踪器的开创性工作,通过简洁高效的设计实现了实时目标跟踪,为后续研究提供了重要基础。虽然存在一些局限性,但其核心思想仍被广泛应用,不断推动着视觉目标跟踪领域的发展。

2025-04-25 12:01:43 306

原创 SiamFC算法深度解析

SiamFC(Siamese Fully-Convolutional Networks)是一种基于孪生网络(Siamese Network)的视觉目标跟踪算法,由Bertinetto等人在2016年提出。适用于需要实时跟踪的场景,如无人机追踪、视频监控、自动驾驶等,尤其在对速度要求较高的场景中表现突出。,将响应图上的每个位置视为二分类样本(正样本为真实目标中心,负样本为背景区域)。:后续帧中可能包含目标的更大区域(通常为255×255像素)。输出为响应图(17×17),最大值对应目标在搜索区域中的位置。

2025-04-24 22:21:31 323

原创 CamShift目标追踪算法

CamShift(Continuously Adaptive Mean Shift)算法是Mean Shift算法的改进版本,主要用于视频序列中的目标跟踪。它通过动态调整搜索窗口的大小和方向,适应目标在运动过程中的尺度变化和旋转,广泛应用于计算机视觉领域,如人脸跟踪、物体追踪等。从上一帧的目标位置开始,在反向投影图上运行Mean Shift算法,寻找密度最大的区域(即新目标位置)。对后续每一帧,计算每个像素属于目标颜色分布的概率,生成反向投影图(概率密度图)。依赖颜色分布,若背景与目标颜色相似易失效。

2025-04-24 11:52:40 178

原创 Mean-Shift目标跟踪算法详解

其改进版(如CAMShift)可解决尺度问题,但复杂场景需结合其他特征或深度学习模型。结合卡尔曼滤波(Kalman Filter)预测目标位置,提升快速移动时的鲁棒性。对直方图进行归一化,得到概率分布 ququ​(uu为直方图的bin索引)。通过Mean-Shift迭代,找到相似度最高的区域(密度峰值)。联合颜色、纹理(LBP)、或深度特征(如HOG)增强判别能力。统计目标区域内颜色的概率分布(即“目标模型”)。将目标的颜色分布(如HSV空间的H通道)表示为。:手势跟踪(如基于肤色的手部追踪)。

2025-04-23 16:55:44 177

原创 KCF目标追踪算法 (Kernelized Correlation Filters) 详解

该算法基于相关滤波(Correlation Filter)理论,结合核技巧(Kernel Trick)和循环矩阵(Circulant Matrix)性质,在计算效率与跟踪精度之间取得了良好的平衡。KCF算法因其高速度(可达数百FPS)和较高的鲁棒性,成为目标跟踪领域的重要基准方法之一。KCF算法的核心思想是通过训练一个滤波器,使其在目标位置处产生最强的响应,从而在后续帧中快速定位目标。:传统的相关滤波器是线性的,KCF通过核方法(如高斯核、多项式核)将其扩展到非线性情况,提高分类能力。

2025-04-23 14:15:21 870

原创 在 Windows 下安装 Dify 教程

确保 Docker Desktop 正在运行并有足够资源(至少 4GB 内存分配给 Docker)现在您已经在 Windows 上成功安装并运行了 Dify,可以开始构建您的 AI 应用了!:所有数据会自动保存在 Docker 卷中,即使容器停止也不会丢失。下载并安装 Docker Desktop for Windows。安装完成后启动 Docker Desktop。确保在设置中启用 WSL 2 后端(推荐):如果 80 端口被占用,可以在。PostgreSQL 数据库。推荐配置至少 8GB 内存。

2025-04-22 11:23:11 2693

原创 Mask R-CNN

不仅能够完成目标检测(检测物体并给出边界框),还能为每个检测到的物体生成精确的像素级分割掩码(Mask)。:二值交叉熵(Binary Cross-Entropy),计算每个像素的预测掩码与真实掩码的误差。的掩码(K 是类别数,m 是掩码分辨率,通常 14×14 或 28×28)。Mask 分支仅预测当前类别对应的掩码,避免不同类别竞争,提升分割质量。:预测每个 RoI 的分割掩码(Mask),采用 FCN 结构。在原有的分类(Class)和回归(Box)分支基础上,新增一个。

2025-04-22 09:37:24 930

原创 图像分割的发展历程

如Non-local Networks(2018)、CBAM(2018),增强重要区域权重。扩展Faster R-CNN,增加分割分支,实现检测与分割一体化(实例分割)。:结合编码器-解码器和空洞空间金字塔池化(ASPP),提升多尺度分割能力。:扩展至点云(如PointNet++)和时序数据(如MaskTrack)。:如SAM(Meta),通过提示(prompt)实现零样本分割。(2001):将分割转化为能量最小化问题,结合颜色和边界信息。:使用SIFT、HOG等特征结合分类器(如SVM)进行分割。

2025-04-22 09:04:46 796

原创 deepsort训练自己的数据集

要训练DeepSORT在自己的数据集上,需要完成以下关键步骤。

2025-04-21 16:51:52 1407

原创 ByteTrack自定义数据集训练指南

使用NVIDIA Jetson部署,启用--fp16和--trt以下是使用ByteTrack 通过保留低置信度检测框(传统方法会过滤掉),利用运动关联(IoU匹配)和外观特征(可选)实现高精度多目标跟踪,尤其适合遮挡和拥挤场景。

2025-04-21 13:51:08 936

原创 unet训练自己的数据集

通过以上步骤,即可完成UNet在自定义数据集上的训练和部署。图像和标签:图像(如.jpg.png)和对应的分割掩膜(mask,需与图像同名且尺寸相同)。目录结构dataset/train/images/ # 训练图像masks/ # 对应的标签val/images/ # 验证图像masks/ # 对应的标签。

2025-04-21 11:03:22 1396

原创 DeepLabv3+训练自己的数据集指南

希望这个指南能帮助你成功训练自己的DeepLabv3+模型!使用不同的backbone(如Xception)提高精度。对应的标注图像(PNG格式,每个像素值代表类别ID)类别ID应从0开始连续编号(0,1,2,...)标注图像应为单通道,像素值0通常表示背景。添加数据增强(随机缩放、旋转、颜色变换):减小batch_size或图像尺寸。输入图像(如JPG/PNG格式):尝试降低学习率或使用学习率调度。:增加数据增强或使用正则化技术。使用混合精度训练加速训练过程。:在损失函数中使用类别权重。

2025-04-21 10:38:27 1163

口罩数据集(mask,nomask),VOC格式,可用于目标检测

本数据集是一个专门为计算机视觉和人工智能研究设计的口罩佩戴检测数据集,适用于人脸识别、目标检测和公共卫生安全等相关领域的研究与应用开发。数据集包含大量标注图像,覆盖多种真实场景下的口罩佩戴情况。 数据集特点 包含10,000+高质量图像 多样性强 多种口罩类型:医用外科口罩、N95口罩、布口罩等 不同佩戴方式:正确佩戴、不正确佩戴、未佩戴口罩 各种光照条件和背景环境 精细标注 每张图像包含XML格式的标注文件 标注内容:人脸边界框、口罩佩戴状态、口罩类型 应用场景 口罩佩戴检测算法开发 公共卫生监控系统

2022-07-12

图像视频的车牌检测系统

通过yolo算法实现车牌定位模型,对车牌进行检测定位,并且通过LPRNET模型实现对车牌内容的OCR识别,从而达到对车辆车牌的检测识别,并且提供图像与视频的两种检测方式。最终通过pyqt实现对功能的展示。 环境搭建,见plate_pyqt.txt

2024-04-26

目标检测数据集的扩充升级版

对已经标注的目标检测小数据集进行扩充。并且支持xml与txt两种模式,参数可以配置,可以配置扩充的倍数,最多可以对原始数据集扩充8倍。并且增加小数据集对环境的适应性。是目标检测中数据集处理必不可少的一个工具代码。

2024-04-11

目标检测数据集扩充程序

针对小样本数据集的扩充处理,小样本数据集数据量有限,将影响最终的训练结果,该程序在标注后的样本的基础上,基于图像对比度、亮度等变化,对小样本的样本数量进行扩充,从而提升最终模型的精度

2023-12-04

车牌检测识别功能实现,包含界面

车牌检测识别功能实现,通过tkinter实现界面展示,并且通过mysql进行结果存储

2023-06-25

车牌识别源码以及训练结果

车牌识别算法源码以及训练权重结果

2023-06-25

基于yolov5的车牌检测

车牌检测模型训练结果

2023-06-21

猪(pig)目标检测数据集

猪(pig)目标检测数据集,yolo格式的,可以直接用来yolo系列的训练,不需要进行再次转化,直接修改相应的yaml配置文件,即可使用。

2023-03-26

python多线程定时器

通过多线程实现定时器,定时启动多线程,并且带有参数,threadtimer为定时器,main为主程序,可以按照间隔启动多线程

2023-03-11

基于深度学习的摔倒检测

用yolov5算法实现摔倒行为检测识别,模型已经训练完毕,存放路径在runs/train目录下,模型可以直接拿来使用,相应的训练参数见runs/train下面的相应图形,检测效果见runs/detect目录下。可以用来做异常行为或者智能守护中的摔倒行为检测等应用。

2023-03-06

基于yolov5的猪体(pig)识别

用yolov5算法实现猪体检测识别,模型已经训练完毕,存放路径在runs/train目录下,模型可以直接拿来使用,相应的训练参数见runs/train下面的相应图形,检测效果见runs/detect目录下。可以用来做猪(pig)的盘点等应用。

2023-03-04

牛(cow)目标检测数据集

基于coco_2014与VOC_2017数据集为基础,提取出来的牛(cow)单一种类的目标检测数据集(包含4110张各种场景下的cow图片),可用于cow的目标检测识别,以及cow的个体统计。格式符合yolo系列的(voc)格式,可以直接使用。

2023-03-04

牛(cow)数据集,VOC格式

基于VOC_2006与VOC_2012数据集的裁剪梳理,提取出来的牛(cow)单一种类的目标检测数据集(包含613张各种场景下的cow图片),可用于cow的目标检测识别,以及cow的个体统计。格式符合yolo系列的(voc)格式,可以直接使用。

2023-03-04

基于深度学习的钢筋端面识别

用yolov5算法实现钢筋断面检测识别,模型已经训练完毕,存放路径在runs/train目录下,模型可以直接拿来使用,相应的训练参数见runs/train下面的相应图形,检测效果见runs/detect目录下。可以用来做钢筋盘点等应用。

2023-03-04

yolov5牛体检测识别

用yolov5算法实现cow(牛)体检测识别,模型已经训练完毕,存放路径在runs/train目录下,模型可以直接拿来使用,检测效果见runs/detect目录下

2023-02-28

tkinter实现图像与视频中的人员统计

基于yolov5算法实现人员检测识别,并且对视频与图像中的行人进行人员统计,最后用tkinter实现前端展示,并且最终会对行人进行阈值比较,超过阈值进行报警通知(弹框提示)。

2023-02-27

前后端实现口罩检测与人脸识别

前后端分离实现对视频中的行人进行口罩检测,并对为检测到口罩的行人进行人脸识别。涉及到的技术有 python,vue,yolov5,knn,人脸识别,口罩检测。 其中后端主要是用python(flask)来实现主要算法以及数据存储等),前端用vue实现,对上传的视频和图片进行分析展示。

2023-02-19

python-flask-vue实现前后端人体与车辆属性检测

前后端分离的人体(车辆)属性检测系统。其中后端主要是用python(flask)来实现主要算法以及数据存储等),前端用vue实现,对上传的视频和图片进行分析展示

2023-02-18

基于yolov6的安全帽检测

基于yolov6的安全帽检测,模型已经训练好,可以直接使用,模型位置runs/train,检测例子位于runs/detect。并且包含数据集,可以直接进行训练,数据集位置hat_recog

2022-10-18

基于yolov5的安全帽检测

基于yolov5的安全帽检测,模型已经训练好,可以直接使用,模型位置runs/train,检测例子位于runs/detect。并且包含数据集,可以直接进行训练,数据集位置hat_recog

2022-10-18

依据主体以及格式要求,自动生成春联

依据主体以及格式要求,自动生成春联,导入dify后修改对应的大模型即可运行

2025-09-17

mineru-ocr识别

mineru+dify实现OCR识别,导入dify后,将ip和端口改为 mineru-api服务得ip

2025-09-15

PaddleOCR+HTML 图像OCR识别系统介绍

系统概述 PaddleOCR HTML图像OCR识别系统是一个基于百度飞桨(PaddlePaddle)框架的OCR识别解决方案,通过Web界面提供便捷的文本识别服务。该系统能够从上传的图像或HTML页面中提取的图片中识别文字内容。 核心组件 1. PaddleOCR引擎 基于PaddlePaddle深度学习框架 支持多语言识别(中文、英文、多语种混合等) 预训练模型支持,也可自定义训练 2. Web界面(HTML) 用户友好的上传界面 图像预览功能 识别结果展示区域 系统功能 图像OCR识别 支持JPG、PNG、BMP等常见图像格式 自动检测文本区域 高精度文字识别 HTML页面处理 解析HTML中的图像元素 保持原始页面结构的同时提取文本 高级功能 多语言混合识别 竖排文字识别 技术架构 用户界面(HTML/JS) → 后端服务(Python) → PaddleOCR引擎 → 结果处理 → 返回前端

2025-04-20

视频人体属性检测演示系统

视频人体属性检测演示系统说明 1. 系统概述 ① 目标:实时或离线检测视频中的人体属性(如性别、年龄、姿态、衣着、动作等)。 ② 应用场景:安防监控、智慧零售、人机交互、体育分析等。 ③ 核心功能: 1)人体检测。 2)多属性识别(性别、年龄、服装、携带物品等)。 3)姿态/动作分析(站立、行走、举手等)。 4)可视化结果展示与数据导出。 2. 系统架构 ① 输入模块 1)支持本地视频文件。 2)视频解码与帧提取。 ② 处理模块 1)人体检测:YOLO等算法定位人体位置。 2)属性识别:基于深度学习模型(如paddleclas)分类属性。 3)跟踪算法:ByteTrack等实现跨帧ID关联。 4)可视化界面:标注框、属性标签。 4. 使用说明 ① 依赖库:Python 3.9+, PyTorch, OpenCV。 ② 硬件建议:NVIDIA GPU(可选CPU模式但性能下降)。 ③ 详细环境搭建以及运行流程见文档 “使用说明.txt” ④ 交互界面,html实现的前端页面

2025-04-18

html实现的经典贪吃蛇游戏

游戏特点 经典重现:完美复刻经典贪吃蛇游戏玩法 精美界面:现代化UI设计,视觉效果出色 完整功能:包含完整游戏控制 如何使用 将上述代码复制到HTML文件中 在浏览器中打开该文件即可开始游戏 电脑使用方向键控制 避免撞墙或撞到自己身体 这个贪吃蛇游戏不仅功能完整,而且界面美观,代码结构清晰,是学习HTML5游戏开发的优秀示例!

2025-04-09

Flask + YOLO + HTML 实现前后端图像/视频目标检测:零基础实战教程

《从零搭建!Flask+YOLO+HTML打造高精度图像/视频目标检测系统(附完整源码)》 简介: 想用Python快速搭建一个属于自己的目标检测Web应用?本教程手把手教你如何用Flask作为后端框架,结合YOLO深度学习模型,以及HTML+JavaScript前端交互,实现一个支持图片和视频上传的实时目标检测系统! 你将学到: 如何用Flask搭建轻量级后端API YOLO模型的集成与优化技巧 前端动态展示检测结果(画框+标签+置信度) 支持图片上传、视频流实时处理 完整项目结构 & 源码分享 无论你是深度学习初学者,还是想进阶全栈开发的工程师,这个项目都能让你快速掌握AI落地的核心技能! 上传图片/视频 → YOLO实时检测 → 前端动态渲染结果

2025-04-07

【Flask+paddle深度学习】高精度音频识别系统(附完整源码、模型&详细部署教程)

项目亮点 前沿技术栈:基于Python Flask框架+Paddle深度学习模型,实现端到端的音频识别。 全流程开源:提供完整项目源码、预训练模型、可直接二次开发。 资源内容 核心代码 Flask后端API(音频上传/实时流处理) Paddle模型训练/推理代码 前端Demo(HTML+JS可视化交互界面) 增值资料 完整开发文档(API说明/参数调优技巧/性能压测报告) 适合人群 想快速落地音频AI项目的工程师 需要交Flask毕业设计的学生(提供论文框架) 学习语音处理与模型部署的开发者

2025-04-07

deepseek资料大全

deepseek相关资源 包含介绍,部署手册,以及window与mac的相关文件,模型 指导手册,使用指南等, 共计 182G

2025-02-19

大货车车牌自动生成程序

通过该程序可以实现自动生成模拟车牌,可以用来扩充数据集

2024-12-05

好用的硬盘数据恢复软件

硬盘数据恢复软件,可以用来恢复U盘丢失的数据

2024-11-27

VisionTransformer图像分类

VisionTransformer算法实现的图像分类,包含训练代码以及检测代码,数据集见 https://download.csdn.net/download/reset2021/89263991 下载后,可以修改train中的类别以及数据集地址训练其他数据集模型

2024-05-08

VGGNet图像分类算法

VGGNet算法实现的图像分类,包含训练代码以及检测代码,数据集见 https://download.csdn.net/download/reset2021/89263991 下载后,可以修改train中的类别以及数据集地址训练其他数据集模型

2024-05-08

GoogleNet图像分类算法

GoogleNet算法实现的图像分类,包含训练代码以及检测代码,数据集见 https://download.csdn.net/download/reset2021/89263991 下载后,可以修改train中的类别以及数据集地址训练其他数据集模型

2024-05-08

pyqt+yolo+lprnet车牌检测识别系统

基于pyqt+yolov5+lprnet网络实现车牌检测识别系统。用yolov5实现车牌检测定位,用lprnet网络实现车牌号码的识别,借助pyqt实现界面展示,展示最终的结果。包含图像与视频检测识别

2024-05-06

ResNet图像分类算法

ResNet算法实现的图像分类,包含训练代码以及检测代码,数据集见 https://download.csdn.net/download/reset2021/89263991 下载后,可以修改train中的类别以及数据集地址训练其他数据集模型

2024-05-06

DenseNet图像分类

DenseNet算法实现的图像分类,包含训练代码以及检测代码,数据集见 https://download.csdn.net/download/reset2021/89263991 下载后,可以修改train中的类别以及数据集地址训练其他数据集模型

2024-05-05

AlexNet图像分类

AlexNet算法实现的图像分类,包含训练代码以及检测代码,数据集见 https://download.csdn.net/download/reset2021/89263991

2024-05-04

动物食槽数据集(五分类)

动物食槽数据集,五分类,可以用来进行图像分类处理。类别已经处理完成,可以直接用于图像分类来处理。

2024-05-04

yolo人脸目标检测数据集

对widerface数据集进行转换,生成的符合yolo格式的数据集,可以直接用于人脸目标检测的训练。

2024-05-03

车辆类型以及车牌检测数据集

数据集有点大,无法直接上传。 数据集类型包含bus、microbus、minivan suv、sedan、truck、plate

2024-05-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除