自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(119)
  • 资源 (4)
  • 收藏
  • 关注

原创 深度学习4:手写数字识别

本文介绍了使用神经网络进行手写数字图像分类的基本流程。首先讲解了MNIST数据集的结构和下载方法,该数据集包含6万张训练图像和1万张测试图像,每张为28×28像素的灰度数字图片。文章详细说明了如何加载数据集文件并可视化显示图片,同时强调了归一化处理的重要性,通过将像素值除以255将数据范围缩放到[0,1]区间。这为后续神经网络训练和推理处理奠定了基础。

2025-12-23 10:38:54 537

原创 深度学习3:理解神经网络

本文介绍了神经网络的基本概念及其核心组件。神经网络灵感来源于人脑神经元结构,通过多层处理输入信号(如天气数据)并输出预测结果(如晴天/雨天)。文章重点讲解了感知机模型和激活函数的作用,对比了阶跃函数与Sigmoid函数的特性:阶跃函数输出二元信号且突变,而Sigmoid函数输出连续值且平滑,二者均为非线性函数。Sigmoid函数的引入使神经网络能够处理更复杂的连续信号转换,为深度学习奠定了基础。文中通过Python代码和可视化图表直观展示了两种激活函数的差异。

2025-12-22 19:42:16 760

原创 声音克隆与情感合成:Dify接入IndexTTS2

本文介绍了如何将IndexTTS2语音合成服务集成到Dify应用中。首先需要部署Dify 1.10.0环境和IndexTTS2服务,后者会提供7860端口的Web界面和API接口。集成方式主要有两种:1)通过MCP服务直接接入;2)通过HTTP请求调用API。文章详细说明了HTTP调用的实现方法,包括发送POST请求获取EVENT_ID,再通过GET请求获取SSE流形式的音频结果。示例代码展示了如何使用Python的requests和sseclient库完成语音合成功能。这种集成方式使Dify应用能够利用I

2025-12-21 18:49:56 689

原创 声音克隆与情感合成:IndexTTS2让AI语音会“演戏”

B站开源IndexTTS2语音合成模型,支持5秒克隆声音并精准控制情感。该模型解决了传统语音合成的两大难题:情感表达缺失和时长控制不精准,实现了音色与情感的分离建模。本地部署需要Ubuntu系统、CUDA环境和22G显存,通过UV工具安装依赖,从ModelScope下载模型权重。启动后可在网页界面选择声音样本、调整情感参数并生成语音。IndexTTS2将专业语音合成技术变为易用工具,大幅降低了高质量语音内容的制作门槛,未来或将广泛应用于各类内容创作场景。

2025-12-21 18:48:51 781

原创 深度学习2:理解感知机

感知机是神经网络的基础算法,由Frank Rosenblatt于1957年提出。它接收多个输入信号,通过加权求和并与阈值比较来输出信号。通过调整权重和阈值,感知机可以实现与门、与非门和或门等逻辑电路。引入偏置参数b后,感知机的表达式更简洁。单层感知机只能解决线性可分问题,而多层感知机通过组合多个感知机可以处理更复杂的非线性问题,如加法器和编码器等。虽然早期需要人工设定权重,但现代神经网络能够自动从数据中学习合适的参数。

2025-12-19 18:43:33 663

原创 深度学习1:Python基础库NumPy与Matplotlib

本文介绍了NumPy和Matplotlib在深度学习中的应用。NumPy的核心功能包括多维数组(ndarray)、高效计算、广播机制和数学函数库,提供了丰富的数组生成和运算方法。Matplotlib用于数据可视化,支持绘制多种函数图像,如线性函数、二次函数等,并可通过子图布局展示多个图形。文章还演示了如何设置中文显示和添加函数特性说明,为深度学习实验提供了基础工具和方法。

2025-12-18 19:47:07 314

原创 智普GLM-TTS开源:可控且富含情感的零样本语音合成模型

GLM-TTS 的核心目标是解决传统 TTS 在情感表达、发音准确性和实时性上的瓶颈:早期模型虽高效但缺乏自然韵律,而 GLM-TTS 通过多奖励强化学习(GRPO)实现人类级别的表达力和稳定性,支持从 3-10 秒参考音频克隆声音。

2025-12-13 15:21:41 471

原创 ​​HeapDump​​在线工具:告别JVM参数烦恼

HeapDump是一款由阿里JVM专家开发的在线工具,可自动生成优化的JVM参数配置。用户只需输入机器配置(CPU核数、内存大小、JDK版本等),工具即可智能推荐-Xms、-Xmx等核心参数,支持GC日志、OOM Dump等高级配置。该工具解决了Java服务部署时手动配置JVM参数的痛点,10秒即可生成专业级配置方案,完全免费且无需注册。特别适合需要快速部署Java应用但缺乏JVM调优经验的开发者使用。

2025-12-12 16:35:10 355

原创 ComfyUI遇上Z-Image(3):文生图/图生图

本文介绍了使用Z-Image模型在ComfyUI中实现文生图和图生图的工作流程及原理。文生图通过CLIP文本编码器将提示词转换为文本嵌入,与潜在空间中的噪声图像结合,经UNet逐步去噪生成图像。图生图则在文生图基础上增加参考图向量化处理,通过调整降噪参数控制输出与参考图的相似度。文章详细演示了节点连接、参数设置等实操步骤,并强调提示词结构、模型选择和降噪参数对生成效果的关键影响。最终生成的图像质量取决于模型训练数据、提示词优化和参数配置的协同作用。

2025-12-07 18:55:15 1143

原创 ComfyUI遇上Z-Image(2):ComfyUI工作流

摘要:ComfyUI是一个基于Stable Diffusion的可视化AI图像生成工具,通过节点式工作流实现图像创作。核心概念包括:1) Stable Diffusion通过文本编码、噪声降噪和图像解码三步骤生成图像;2) 工作流由多个节点(Node)连接组成,如模型加载器、文本编码器和潜在图像处理器等;3) 关键节点功能包括CheckPoint加载模型、CLIP文本编码处理提示词、空Latent图像设置输出尺寸等。系统支持自定义工作流程的保存和分享,用户可通过调整节点参数控制生成效果。

2025-12-06 18:23:37 1117

原创 ComfyUI遇上Z-Image(1):环境部署与AI图像生成快速体验

本文介绍了如何在本地部署ComfyUI与阿里通义实验室开源的Z-Image模型组合。主要内容包括:1) ComfyUI作为基于节点的可视化AI图像生成工具的特点;2) 详细的环境配置步骤,包括Ubuntu系统、CUDA、conda环境等准备;3) 源码安装ComfyUI及依赖项;4) 模型目录结构说明及Z-Image相关模型文件的下载;5) 实际体验流程演示,通过导入工作流图片实现图像生成。文章提供了完整的部署指南,帮助用户搭建这一高效的AI图像生成系统。

2025-12-05 17:44:20 826

原创 阿里通义实验室开源Z-Image:6B参数的AI图像生成

阿里巴巴通义实验室推出高效图像生成模型Z-Image,包含三个专用版本:Turbo版(8步快速生成)、基础版和编辑版(精准图像修改)。该模型仅60亿参数,却在图像质量、文本渲染和文化理解等方面超越更大规模的国际模型,支持16GB显存显卡运行。Z-Image具备照片级真实感生成、双语文本渲染、文化深度理解等能力,适用于设计、教育、电商等多场景。官方已开源代码和模型,提供本地部署指南,支持消费级硬件流畅运行。

2025-12-04 19:57:28 685

原创 腾讯HunyuanOCR开源端到端OCR-1B:本地部署与测试

腾讯混元HunyuanOCR是一款轻量级端到端OCR视觉语言模型,支持多语言文档解析、文本定位等任务。本文详细介绍了在Ubuntu 24.04系统上的本地部署过程,包括环境配置(CUDA 12.8、PyTorch 2.9)、模型下载、虚拟环境搭建以及vLLM服务启动等关键步骤。针对部署过程中遇到的aiohttp编译错误和CUDA驱动兼容性问题,提供了具体解决方案。最终成功启动vLLM服务,为后续OCR功能测试做好准备。该模型仅1B参数却达到行业领先水平,适用于多种文本处理场景。

2025-12-02 18:18:17 1444 1

原创 人脸检测与识别-InsightFace:向量相似性搜索Faiss

Faiss是由Meta开发的高效向量相似性搜索库,支持十亿级向量的毫秒级检索。它提供多种索引类型(Flat/IVF/HNSW)适用于不同规模数据,支持L2/内积/余弦等多种距离度量,广泛应用于推荐系统、图像检索等场景。安装可通过pip选择CPU或GPU版本,核心功能包括向量索引构建、相似性搜索和聚类。使用流程包括创建索引、插入数据、执行搜索,并支持索引保存/加载和GPU加速。结合insightface可实现人脸特征存储与检索,适合大规模高维向量检索需求。

2025-11-30 20:07:22 1032

原创 人脸检测与识别-InsightFace:特征向量提取与识别

InsightFace是一个功能强大的开源人脸分析工具箱,集成了2D/3D人脸检测、识别、对齐和活体检测等模块。该项目基于PyTorch和MXNet框架,提供了从人脸检测到特征提取的一站式解决方案。文章详细介绍了InsightFace的发展历程、环境配置方法,并通过Python代码示例展示了如何初始化模型、提取人脸特征向量并保存。该项目支持GPU加速,可通过简单的API调用实现高效的人脸分析功能,适用于安防、社交等多个应用场景。

2025-11-29 15:50:11 741

原创 目标检测YOLO[07]:自建数据集-让模型检测脸部区域

本文介绍了使用YOLOv8进行人脸检测的完整流程。首先通过AI生成包含张三和李四的26张训练图片(各13张),并保留3张用于验证。文章强调人脸识别与人脸检测的区别,指出YOLOv8仅能实现后者。主要内容包括:1)使用Roboflow公开数据集进行预训练,配置data.yaml并训练100个epoch;2)使用LabelImg工具标注自定义数据,比较PascalVOC与YOLO标注格式差异;3)提供Python脚本将标注文件转换为YOLO格式并按7:2:1比例划分训练集、验证集和测试集。实验结果显示预训练模型

2025-11-28 17:42:50 401

原创 目标检测YOLO[06]:公开数据集-训练抽烟检测

本文介绍了使用YOLOv8训练自定义目标检测模型的全流程。首先通过RoboFlow平台获取吸烟检测数据集,包含4个类别(香烟、人、烟雾、电子烟)。详细说明了数据集下载、目录结构配置和YAML文件修改方法。训练阶段使用预训练模型yolov8n.pt,设置10个epoch进行微调。训练结果显示模型收敛良好,mAP指标持续提升。最后通过实际视频测试模型效果,并使用FFmpeg将输出视频转换为MP4格式。整个过程涵盖了从数据准备到模型部署的关键步骤,为自定义目标检测任务提供了完整参考方案。

2025-11-27 18:26:58 292

原创 Ollama0.13.0上线DeepSeek-ocr 3B

Ollama v0.13.0发布,新增DeepSeek-OCR模型支持及多项优化。本文详细介绍了Linux环境下的安装配置步骤,包括解压安装、用户权限设置、服务配置等。通过Cherry Studio工具演示了模型接入流程,展示了OCR文本识别的实际效果。同时提供了Python代码示例,说明如何通过OpenAI兼容API调用DeepSeek-OCR模型进行图像文字识别。该版本还包含Cogito-V2.1模型和Bench性能测试工具等新特性。

2025-11-26 18:54:16 1057

原创 目标检测YOLO[05]:让YOLO模型训练跑得更快

本文介绍了提升YOLO模型训练效率的实用方法。主要内容包括:1) 训练效率的四个关键指标(CPU、CUDA、内存、显存);2) 使用GPU而非CPU训练可显著提升速度;3) imgsz参数影响训练速度和效果,需在32倍数范围内选择;4) batch参数与GPU利用率正相关,建议8-32之间;5) cache参数可预加载数据加速训练但需大内存;6) workers参数控制并行进程数,推荐4-8个。通过合理调整这些参数,可显著提升模型训练效率。

2025-11-25 17:49:41 49

原创 目标检测YOLO[04]:跑通最简单的YOLO模型训练

本文介绍了YOLO模型训练的基础流程和关键要素。主要内容包括:1)训练流程概述,即通过数据集迭代训练模型;2)训练核心关注点:数据集准备、模型选择及训练参数设置;3)演示了最简单的YOLO训练实例代码;4)重点解析了数据集结构,包括训练集、验证集和测试集的划分;5)详细说明了YOLO数据集的目录结构和标签文件格式;6)介绍了标签可视化工具LabelImg的安装方法。文章通过具体代码示例和文件结构图解,帮助读者快速掌握YOLO模型训练的基本方法。

2025-11-24 16:54:10 173

原创 目标检测YOLO[03]:推理入门

本文首先通过生活类比和技术流程解释了AI模型训练与推理的区别:训练是让模型学习知识的过程,需要大量数据和参数调整;推理则是应用所学知识对新数据进行预测。接着介绍了如何使用YOLOv8模型进行目标检测推理,包括代码实现、预测目标类型和不同模型尺寸的选择。文章详细说明了YOLO系列各版本支持的任务类型(目标检测、实例分割、姿态估计等)及其对应的模型文件命名规则,并提供了查看模型任务类型和可预测类别的代码示例。最后指出模型参数越多推理越准确,但计算耗时也更长。

2025-11-23 20:50:15 158 3

原创 Dify知识库图文混排回复-让回答“图文并茂”

目前在Dify知识库中上传的文档,要想做到回复图文混排的内容效果比较好的,有word格式导入和 markdown+图床两种。word文档中本身就是图文混排,使用word文档不用太折腾,本文对它探索一番后,各位可以体会一下它的优缺点。

2025-11-22 21:15:55 479

原创 目标检测YOLO[02]:YOLOv8 环境安装-Ubuntu

目标检测YOLO[02]:YOLOv8 环境安装-Ubuntu

2025-11-21 16:59:09 265

原创 目标检测YOLO[01]:你只需要看一次的视觉革命

摘要:YOLO(You Only Look Once)是一项革命性的目标检测技术,通过将检测任务转化为单次回归问题,实现了实时高效的目标定位。与传统的两阶段检测方法不同,YOLO将图像划分为网格,每个网格直接预测物体的类别和位置。自2016年推出以来,YOLO已发展到第11代,在自动驾驶、安防监控等领域广泛应用。其核心思想包括单次前向推理、回归式检测和网格负责制,使其成为当前工业界最实用的目标检测解决方案。建议初学者从生态成熟的YOLOv8开始学习。

2025-11-20 17:51:38 32

原创 PaddleOCR-VL本地部署攻略(3):客户端工具/代码接入

前一篇《PaddleOCR-VL本地部署攻略(2):vLLM推理》 已经部署好了 PaddleOCR-VL 使用vLLM的推理服务,客户端做了简单测试。本篇我们先后会使用 Apifox ,Python代码,Java代码(Spring AI) 进行调用

2025-11-19 18:09:58 232

原创 PaddleOCR-VL本地部署攻略(2):vLLM推理

之前直接使用PaddlePaddle进行PaddleOCR-VL的推理,优点是安装相对简单,但缺点是速度太慢了,推理速度只有之前PaddleOCR的40%, 而 PaddleOCR-VL是支持使用vLLM框架进行加速的。

2025-11-18 18:15:27 586

原创 PaddleOCR-VL本地部署攻略(1):模态文档解析新王者

PaddleOCR-VL是一款全球领先的文档解析模型,由百度飞桨团队开源。该模型采用0.9B参数的紧凑型视觉语言架构,在OmniDocBench V1.5榜单中以92.6分夺冠,支持109种语言和复杂文档解析。文章详细介绍了PaddleOCR-VL的两阶段处理流程、与DeepSeek-OCR的性能对比,并提供了本地部署指南,包括环境配置、模型下载等关键步骤,帮助用户轻松实现高性能文档解析能力。

2025-11-17 12:00:04 798

原创 Claude Code 接入国产模型

摘要: Claude Code是Anthropic开发的AI编程工具,支持自然语言交互执行代码编辑等任务。由于限制中国用户使用,可替换为国产模型如Kimi、GLM-4.6等。安装需配置Node.js环境,通过修改环境变量或配置文件切换模型,支持智普、月之暗面等平台的API接入,实现无缝迁移。

2025-11-16 10:46:24 779

原创 Linux服务器只开80/443就没必要开Iptables?

有必要,而且是必须要开,不开就是裸奔=找死,不要误认为防火墙只是控制端口的开放和关闭。

2025-11-14 18:10:03 848

原创 DeepSeek-OCR实战(06):SpringBoot应用接入

应用系统中通常会有一些单据需要入库,而入库单有些时候是纸质的,每条信息都录入费时费力,此时可以将单据使用手机对单据进行拍照,让应用识别提取,提取后人工进行校验,校验完毕一键入库。

2025-11-13 18:11:45 974

原创 DeepSeek-OCR实战(05):DeepSeek-OCR-WebUI部署(Docker)

前一章调试了官方推理代码,官方代码并没有UI界面,输入输出都不直观。DeepSeek-OCR-WebUI 是一个基于DeepSeek-OCR 模型的图像识别web应用,提供直观的用户界面和识别功能。

2025-11-12 17:02:38 1844 3

原创 DeepSeek-OCR实战(04):官方的推理代码调试

本篇将使用 DeepSeek-OCR 开源的代码:https://github.com/deepseek-ai/DeepSeek-OCR 进行在线调试,为后续的接入业务代码做准备。

2025-11-11 12:53:25 1183

原创 DeepSeek-OCR实战(03):本地部署+简单UI测试

DeepSeek-OCR实战是一个系列文章,包含了从基础运行环境搭建到应用接入全过程。本章介绍DeepSeek-OCR如何本地部署

2025-11-11 12:51:06 1179 1

原创 DeepSeek-OCR实战(02):DeepSeek-OCR模型介绍

DeepSeek-OCR实战是一个系列文章,包含了从基础运行环境搭建到应用接入全过程。本章会对DeepSeek-OCR模型进行介绍

2025-11-09 11:39:00 775

原创 DeepSeek-OCR实战(01):基础运行环境搭建-Ubuntu

DeepSeek-OCR实战是一个系列文章,包含了从基础运行环境搭建到应用接入全过程。本章为:基础运行环境搭建,操作系统采用 Ubuntu Server 24

2025-11-08 15:33:38 1399

原创 DeepSeek-OCR实战(01):基础运行环境搭建-RockyLinux

DeepSeek-OCR实战是一个系列文章,包含了从基础运行环境搭建到应用接入全过程。本章为:基础运行环境搭建, 操作系统采用 Rocky Linux 10

2025-11-08 15:29:42 1132

原创 Linux内核升级后驱动丢失的处理:回退内核

内核升级失败后回退

2025-11-07 11:36:35 330

原创 本地部署vLLM+Qwen3:高性能大模型推理引擎,比Ollama强在哪?

vLLM和Ollama是大模型推理的两大主流引擎,各有特点:vLLM采用创新的PagedAttention技术,显存利用率达95%,支持连续批处理和前缀共享,适用于企业级高并发场景,吞吐量可达30-60tokens/秒;Ollama则主打轻量易用,支持快速部署,适合个人开发测试。硬件方面,vLLM需专业级GPU,Ollama消费级显卡即可运行。企业生产推荐vLLM,个人开发选择Ollama更便捷。部署vLLM需Linux环境、NVIDIA驱动535+版本,并注意关闭nouveau驱动。

2025-11-06 19:12:47 1625

原创 自己搭建内网穿透:NPS开源免费

NPS内网穿透安装部署

2025-11-04 11:29:15 787

原创 Dify 1.10.0-rc1 本地部署:无缝接入 Ollama 打造专属 AI 应用平台

Dify 团队最近放出了 1.10.0 的首个候选发布版——1.10.0-rc1。这不仅仅是一次小修小补,更是一次体验和功能上的重大飞跃!全新的工作流画布、更智能的 RAG(检索增强生成)策略,以及对本地模型更友好的支持,都让这个版本充满了看点。

2025-11-03 16:03:04 1508

spring配置文件解释

解释spring配置文件中的 dtd与 xml Schema

2010-04-08

一步一步教你使用springSecurity3.0

一步一步教你使用spring Security3

2010-04-05

Struts2零配置

Struts2中使用annotation实现零配置

2011-09-16

Hibernate中文参考

满江红翻译团队 翻译的hibernate参考文档

2008-06-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除