- 博客(332)
- 资源 (3)
- 收藏
- 关注
原创 多模态大模型学习笔记(三十六)—— 扩散模型与可控生成:从AI涂鸦到精准作画的技术革命
从VAE和GAN的奠基,到扩散模型的爆发,再到ControlNet和LoRA等可控生成技术的成熟,AI生成技术在短短几年内取得了令人瞩目的进步。今天,我们已经可以用AI生成高质量的图像、视频、音频和3D模型,这些技术正在深刻改变设计、影视、游戏、教育等众多行业。更高的效率:随着LCM等加速技术的不断进步,AI生成将从"秒级"进入"实时级",实现真正的交互式生成更强的可控性:更精细的结构控制、更准确的语义对齐、更灵活的风格组合,让AI真正成为人类的创意助手统一的生成模型。
2026-04-16 22:22:16
327
原创 多模态大模型学习笔记(三十五)——OCR全景认知:从字符识别到多模态理解的百年演进
OCR的全称是Optical Character Recognition(光学字符识别),本质上是一种从视觉信号中恢复语言符号的任务。从底层技术来看,它是一个典型的计算机视觉任务:输入是图像信号(像素矩阵),输出是文本符号序列。但从上层目标来看,OCR更是一种视觉与语言的跨模态映射——模型需要将图像中的视觉特征(笔画、形状、布局)映射到人类可理解的语言空间。从1920年代的模板匹配到今天的多模态大模型,OCR技术已经走过了百年的发展历程。
2026-04-15 23:01:33
378
原创 电商智能客服智能体——基于LangChain的电商智能客服 Agent 架构设计与实现(二)
多源信息联合推理:需要联合商品数据库与优惠文本规则进行回答。显式工具调用需求:模型自身并不直接掌握实时商品与库存信息,必须借助外部工具。数值计算安全要求:价格、折扣与满减逻辑必须通过受控计算模块执行。多轮上下文依赖:后续问题经常省略商品名称,需要依赖对话记忆完成补全。业务规则约束性强:如“满 300 元半价”等规则若被语言模型误解,会直接导致答复错误。因此,v2 版本的核心目标不是简单“接入 LangChain”,而是构建一个具备工具感知、上下文保持、业务规则约束与安全计算能力。
2026-04-14 13:52:18
351
原创 电商智能客服智能体——基于 ReAct 范式的 Agent 架构设计与代码实现(一)
多源信息整合:需要同时查询商品数据库、优惠政策文档等多源数据数值计算需求:涉及折扣计算、满减规则等数学运算上下文依赖:多轮对话中需要保持上下文连贯性安全性要求:计算过程需防止代码注入等安全风险因此,本文设计并实现了一套基于 ReAct 范式的电商智能客服 Agent 系统,旨在解决上述挑战。本文设计并实现了一套基于 ReAct 范式的电商智能客服 Agent 系统。该系统通过显式的推理-行动-观察循环,有效解决了电商客服场景中的多源信息整合、数值计算安全性和上下文记忆等关键问题。
2026-04-13 15:00:39
410
1
原创 多模态大模型学习笔记(三十四)——ChatTTS:新一代中文语音合成工具原理与实战解析
ChatTTS的核心优势在于中文优化、端到端易用性、灵活的可控性:通过文本精炼模块解决自然度问题,通过说话人嵌入实现音色定制,通过可控采样平衡稳定性与多样性。从代码实战来看,其API设计简洁,仅需几行代码即可实现高质量语音生成,是中文TTS场景的优质选择。未来,ChatTTS还可结合微调(如定制专属音色、行业术语适配)进一步提升场景适配能力,相信会成为中文语音合成领域的主流工具之一。
2026-04-12 23:39:52
391
原创 CCPD数据集全解析:中文车牌识别的“双黄金标准“
全称:Chinese City Parking Dataset(中国城市停车场数据集)发布机构:中国科学技术大学(USTC)多媒体计算与通信实验室首次发布:2018年(CCPD2018)最新版本:CCPD2020 + CCPD-Green(新能源车牌专项)数据总量:超过50万张标注图片开源协议:MIT协议(完全免费,可商用)官方地址CCPD数据集的出现,极大地推动了中文车牌识别技术的发展。它以超大的规模、丰富的场景、精准的标注和完全开源的特性,成为了中文车牌识别领域不可替代的"黄金标准"。
2026-04-10 23:49:29
444
原创 多模态大模型学习笔记(三十三)——基于YOLOv11的安全帽佩戴检测算法
识别三类对象helmet:佩戴安全帽的人员head:未佩戴安全帽的人员person:人体实时处理:支持视频流和图像的实时检测,满足工地实时监控需求高准确率:在复杂场景下保持较高的检测准确率,减少误检和漏检轻量化部署:支持边缘设备部署,降低硬件成本方面成果准确率推理速度模型大小训练时间~24 小时 (300 epoch)部署支持。
2026-04-07 21:54:18
406
原创 多模态大模型学习笔记(三十)—— 基于YOLO26 Pose实现车牌检测
YOLO(You Only Look Once)系列是目标检测领域的基准模型,而是其最新一代用于关键点检测的变体。fill:#333;important;important;fill:none;color:#333;color:#333;important;fill:none;fill:#333;height:1em;输入图像640×640BackboneCSPDarknetNeckPAN特征融合Head检测头边界框x, y, w, h关键点4个角点坐标。
2026-04-07 16:08:44
421
原创 多模态大模型学习笔记(三十一)—— 基于CCT(Compact Convolutional Transformers)实现中文车牌数据集微调
给定输入图像I∈RH×W×C\text{给定输入图像 } I \in \mathbb{R}^{H \times W \times C}给定输入图像I∈RH×W×C求解:argmaxPT∣I\text{求解:} \arg\max P(T | I)求解:argmaxPT∣I其中Tt1t2tn是车牌文本序列\text{其中 } T = [t_1, t_2, \ldots, t_n] \text{ 是车牌文本序列}其中。
2026-04-07 15:36:51
392
原创 多模态大模型学习笔记(二十九)—— 生成对抗网络(GAN)从原理到实战:实现第一个生成模型
生成对抗网络(Generative Adversarial Networks,GAN)是深度学习领域最具影响力的创新之一。自2014年Ian Goodfellow提出以来,GAN彻底改变了我们对生成模型的认知,为图像生成、风格迁移、超分辨率、虚拟人创建等领域开辟了全新道路。本文将从出发,结合,带你从零开始理解并实现自己的第一个GAN模型。无需深厚的数学基础,只需掌握基础的深度学习和Python知识,即可跟随本文完成实战。
2026-04-03 23:27:37
465
原创 多模态大模型学习笔记(二十八)—— 基于Qwen多模态大模型的城市道路积水智能检测助手实战
多模态大模型(Multimodal Large Language Model, MLLM)是能够同时理解和生成多种模态数据(文本、图像、音频、视频)的人工智能模型。系统架构:分层设计,职责清晰,易于扩展多模态技术:深入讲解视觉理解原理和 Qwen-VL-Max 特点Prompt 工程:角色设定、思维链、结构化输出等技巧工程实践:图像压缩、记忆功能、模板配置等实现细节大模型技术正在深刻改变各行各业的运作模式。在智慧城市建设中,多模态大模型为传统视觉检测任务带来了全新的解决思路。
2026-04-01 16:42:09
414
原创 多模态大模型学习笔记(二十七)—— 核心技术篇④ | 让虚拟人“活起来”:口型驱动与面部动画全技术拆解
口型驱动与面部动画技术,是虚拟人从“静态数字形象”到“动态交互分身”的关键桥梁Wav2Lip是嘴型同步的行业基准,以极致的同步精度成为基础口播、配音修正的入门首选,开箱即用、成本极低;是实时全脸驱动的标杆,实现了低延迟、高还原的全脸表情与动作驱动,是当前虚拟人直播、实时交互的商业化最优解;VASA-1是影视级超逼真技术的前沿,实现了嘴型、表情、眼神、微动作的全维度拟人化还原,代表了未来的技术发展方向;
2026-03-27 22:56:08
463
原创 多模态大模型学习笔记(二十六)—— 核心技术篇③ | 虚拟人的声音情感:从语音合成到声音克隆
在文本预处理的Refine阶段,通过设置prompt参数,可统一控制整段语音的口语化程度、笑意、停顿节奏参数中的标签为全局控制指令,可自由组合,实现整段语音的风格统一。语音合成是基础,ChatTTS凭借精细化的语气控制、流式输出,成为国内虚拟人场景的开源首选,让虚拟人能自然、有情感地开口说话;声音克隆是升级,OpenVoice实现了零样本的高精度音色复刻,让虚拟人拥有专属声线,适配克隆式虚拟人、真人IP数字分身等场景;工业级方案。
2026-03-27 22:38:11
524
原创 系统架构师学习笔记(四)——计算机体系结构之校验码
校验码(Check Code)是指在原始数据(信息位)基础上,按照特定算法生成若干附加位(校验位),并将信息位与校验位组合成新的编码。数据传输/存储时发送该编码,接收方通过相同算法验证校验位,判断数据是否出错;部分高级校验码还能定位错误位置并完成纠正。信息位:需要传输/存储的原始数据位,是校验的核心对象;校验位:由信息位通过算法生成的附加位,用于检错/纠错,位数远少于信息位,仅占少量存储空间/传输带宽。每个校验位PrP_rPr负责校验位序的二进制表示中第r−1r-1r−1位为1P。
2026-03-26 17:27:57
498
原创 系统架构师学习笔记(三)——计算机体系结构之存储系统
专用处理器是针对某一类特定任务、特定应用场景进行硬件架构和指令集优化的处理器,其设计摒弃了通用CPU“全场景适配”的特点,聚焦于单一/一类任务的高效执行,在特定场景下的处理效率、功耗控制远优于通用CPU。在存储系统中,专用处理器主要承担存储数据的处理、存储设备的控制、存储任务的调度等工作,核心目的是弥补通用CPU在存储专用任务上的效率短板,将通用CPU从繁琐的专用任务中解放,专注于核心运算和控制。存储系统是计算机的“数据仓库”,其核心设计思想是层次化结构。
2026-03-26 16:33:14
508
原创 系统架构师学习笔记(二)——计算机体系结构之指令系统
指令系统是计算机硬件的语言系统,是CPU能够直接识别和执行的全部指令的总称,它直接反映了一台计算机所具备的基本功能——不同的处理器(如x86、ARM、RISC-V)拥有不同的指令系统,这也是决定处理器性能、适用场景的关键因素。从本质上来说,指令系统是软件对硬件的抽象接口对软件而言,程序员(或编译器)只需按照指令系统的规则编写程序,无需关心硬件的具体实现;对硬件而言,CPU的设计完全围绕指令系统展开,其运算器、控制器、寄存器等部件都是为了高效执行指令系统中的指令。
2026-03-26 15:27:46
803
原创 系统架构师学习笔记(一)——计算机体系结构之计算机硬件组成
计算机硬件的核心组成围绕“运算、控制、存储、输入、输出”五大基本功能展开,CPU是运算和控制的核心,存储器负责数据和程序的存储,I/O设备实现外部信息交互,三者通过总线连接成一个有机整体,共同完成计算机的所有硬件操作。理解计算机硬件组成,是学习计算机体系结构、指令系统、存储系统等后续知识的基础,只有掌握了各部件的功能和协同逻辑,才能真正理解计算机的工作原理。
2026-03-26 10:46:14
662
原创 多模态大模型学习笔记(二十五)—— 核心技术篇② | 虚拟人的大脑:国内头部大语言模型全解析
大语言模型是虚拟人的“大脑”,决定了虚拟人的交互上限。如果你需要全模态能力、完善的生态,通义千问Qwen系列是首选;如果你关注推理效率、部署成本,DeepSeek系列是最优解;如果你需要企业级合规性、垂直行业落地,GLM系列、百川系列更适配;如果你需要超长上下文、知识库问答能力,Kimi系列更有优势。而选择模型的核心,不是盲目追求参数最大、能力最全的模型,而是根据你的虚拟人落地场景,选择最适配、性价比最高的方案,同时通过标准化的评测体系,验证模型在真实场景中的效果。
2026-03-25 23:22:13
501
原创 多模态大模型学习笔记(二十四)—— 核心技术篇① | 虚拟人形象生成:扩散模型与ControlNet原理
虚拟人形象生成的核心,是扩散模型为代表的AIGC图像生成技术。从VAE、GAN到扩散模型,技术迭代的核心方向,始终是更低的生成门槛、更高的生成质量、更强的可控性。对于虚拟人创作来说,Stable Diffusion是基础工具,LoRA/DreamBooth能帮你固定虚拟人的专属形象,ControlNet能帮你精准控制虚拟人的姿态和动作,三者结合,就能完成高质量虚拟人形象的全流程生成。
2026-03-23 22:02:27
459
原创 多模态大模型学习笔记(二十三)——一文搞懂数虚拟人:从定义、分类到核心技术全景
虚拟人,是由视觉形象、语音以及交互系统共同驱动的数字分身。可视化的视觉形象:2D/3D的数字人物外观,是虚拟人的视觉载体;可输出的语音能力:能完成语音合成、口型匹配,实现拟人化的语音表达;可响应的交互系统:能接收用户指令、生成对应反馈,完成双向交互。简单来说,只有一张静态的数字人物图片,不能叫虚拟人;只有配音和画面、但无法实时交互的视频形象,也不是完整意义上的虚拟人。虚拟人的本质,是技术驱动的“数字拟人化载体”。
2026-03-23 20:40:17
604
原创 多模态大模型学习笔记(二十二)——大模型微调全解:从全量调参到LoRA的参数高效训练实战
大模型微调是预训练大模型落地到具体场景的核心环节,从全量调参到以LoRA为代表的参数高效微调,技术的发展大幅降低了大模型定制化的门槛。对于资源充足的机构,全量调参可在大数据场景下实现最优的任务适配;对于中小团队与个人开发者,以LoRA、QLoRA为核心的PEFT方案,是落地大模型定制化的首选,在极低的资源成本下,即可实现媲美全量调参的效果;而SFT微调的效果上限,始终由数据质量决定,标准化的样本设计、严格的数据清洗与校验,是微调成功的核心前提。
2026-03-21 23:58:25
469
原创 多模态大模型学习笔记(二十一)—— 基于 Scaling Law方法 的大模型训练算力估算与 GPU 资源配置
总计算量6×N×D\text{总计算量} = 6 \times N \times D总计算量6×N×D6ND 公式可以快速估算训练所需的计算量资源计算公式帮助确定 GPU 采购数量N 与 D 的配比影响模型的最终性能实际应用中需要考虑 GPU 使用率、通信开销等因素掌握 Scaling Law,可以帮助 AI 团队更科学地规划大模型训练项目,避免资源浪费,提高训练效率。
2026-03-20 23:35:37
532
原创 多模态大模型学习笔记(二十)—— 基于 Qwen的 LoRA 意图分类微调实战
本文介绍如何使用LoRA技术对模型进行微调,实现银行客服意图分类任务。LoRA 微调的基本原理和参数配置使用 PEFT 库进行高效参数微调完整的文本分类任务流程微调效果评估与对比分析数据准备:JSONL 格式,文本+标签模型加载:使用 Transformers 加载预训练模型LoRA 配置:仅 0.071% 参数可训练训练流程:3 分钟完成 1600 条样本训练效果评估:Macro-F1 从 0.07 提升到 0.97用极少的可训练参数,达到接近全参数微调的效果。
2026-03-19 00:05:51
487
原创 多模态大模型学习笔记(十九)——基于 LangChain+Faiss的本地知识库问答系统实战
文档加载器:支持 PDF、Word、TXT 等多种格式文本分割器:智能分割长文档向量存储:集成 FAISS、Qdrant、Chroma 等向量数据库检索链:自动完成"检索-生成"流程模型封装:统一接口调用各种 LLM由于直接使用"""自定义本地 BGE Embedding 类""""""将文档列表转换为向量列表"""texts,output,# L2 归一化p=2,dim=1# 返回 Python 列表"""将查询文本转换为向量"""
2026-03-18 00:02:45
820
1
原创 多模态大模型学习笔记(十八)——基于 DeepSeek-7B 的 LoRA 微调训练实战教程
LoRA 原理:通过低秩矩阵实现参数高效微调4bit 量化:大幅降低显存需求,消费级 GPU 可训练指令微调:使用三元组数据教会模型回答格式数据处理:格式化 + Tokenize + Labels 准备。
2026-03-17 23:06:55
494
原创 多模态大模型学习笔记(十七)——基于 BGE+DeepSeek+Qdrant 的 RAG 文档问答系统实战与优化
RAG(Retrieval-Augmented Generation,检索增强生成) 是一种结合检索和生成的 AI 技术架构。它的核心思想是:为什么需要 RAG?RAG 的工作流程:什么是嵌入模型(Embedding Model)?嵌入模型的作用是将文本转换为固定长度的向量(数字数组)。转换后的向量能够捕捉文本的语义信息——语义相似的文本,其向量在空间中的距离也更接近。BGE-large-zh-v1.5 特点:为什么选择 BGE?什么是大语言模型(LLM)?大语言模型是基于海量文本数据训练的深度学习模型
2026-03-15 21:49:33
510
原创 多模态大模型学习笔记(十六)——Transformer 学习之 Decoder Only
Mij0j≤i(可关注)−∞ji(不可关注)M_{i,j} =0, & j \le i \quad \text{(可关注)} \\-\infty, & j > i \quad \text{(不可关注)}Mij0−∞j≤i(可关注)ji(不可关注)KV Cache 缓存已生成 Token 的 K/V 矩阵,每轮仅计算新 Token 的 Q 矩阵,与缓存的 K/V 计算注意力,不再重复计算前文的 K/V,大幅降低计算量。
2026-03-10 10:53:08
525
原创 多模态大模型学习笔记(十五)——Transformer 学习之 Masked-Attention
Masked-Attention是Transformer生成式能力的核心基石,它通过下三角掩码强制模型遵守自回归生成的规则,确保了生成文本的逻辑性和连贯性。核心思想:通过下三角矩阵屏蔽未来Token,强制模型“向后看”。关键应用:GPT等生成式大模型的核心模块。拓展方向:在多模态场景下,掩码逻辑需要适配图文混合序列的生成需求。
2026-03-10 09:19:36
626
原创 多模态大模型学习笔记(十四)——transformer学习之Self-Attention
基础单元:Scaled Dot-Product Attention通过“Q×Kᵀ相似度计算→缩放→Mask→SoftMax归一化→加权求和V”,实现单个Token的全局语义融合;升级版本:Multi-Head Attention通过“拆分多头→独立注意力计算→拼接→线性投影”,捕捉多维度语义关联,是Transformer的核心;核心优势:并行计算效率高、长距离依赖建模能力强,是大模型处理文本、图像等序列数据的基础。
2026-03-09 17:03:45
396
原创 多模态大模型学习笔记(十三)——transformer学习之位置编码
位置编码是Transformer架构的核心基础模块,从绝对位置编码到相对位置编码,再到RoPE,其演进脉络始终围绕“如何更精准地建模序列位置信息”展开。入门学习:先从原生绝对位置编码入手,理解位置信息注入的核心逻辑,再逐步深入相对位置编码和RoPE。工业落地:在大模型场景中,优先选择RoPE方案,兼顾外推性和精准性;在跨模态场景中,需根据模态特性适配位置编码方案。进阶优化:在长文本场景中,可通过RoPE的外推优化(如NTK-aware RoPE)提升模型对超长序列的处理能力;
2026-03-09 16:04:33
387
原创 多模态大模型学习笔记(十二)——transformer学习之Embedding
Embedding(嵌入),本质是将离散的、高维稀疏的符号数据(如单词、句子、图片、音频),映射到低维、稠密的连续向量空间的过程,最终生成的这个固定长度的向量,就叫Embedding向量(嵌入向量)。计算机无法直接处理人类的语言、图像等符号信息:比如单词“苹果”,计算机无法直接理解它的含义,只能先把它转换成一串数字;
2026-03-09 15:11:01
484
原创 多模态大模型学习笔记(十一)——transformer学习之绪论
上图为Transformer完整架构示意图,清晰展示了编码器、解码器的核心模块及流程,后续我们将逐模块拆解其原理。
2026-03-09 11:08:40
345
原创 多模态大模型学习笔记(九)——多模态任务类型核心任务:生成、理解、检索、推理控制
多模态生成类任务,是指以一种或多种模态为输入(如文本、图像、音频),通过模型学习模态间的语义映射规律,生成全新的、具备语义一致性与实用价值的目标模态内容的任务。其核心诉求是可控性(生成内容符合输入指令)、一致性(时空、风格、语义无冲突)与高质量(接近人类创作水平)。多模态理解类任务,是指模型从单模态或多模态混合输入中,提取核心信息、解析语义关联、完成结构化表达的任务。它是多模态技术的“感知基础”,核心目标是**“读懂”**——将非结构化的多模态数据转化为机器可处理的结构化语义,支撑后续的生成、检索与推理。
2026-02-25 15:38:58
1119
原创 多模态大模型学习笔记(八)——多模态模型架构演进线路与对比总结
融合-编码架构:优先保证模态交互深度,适合需要深度理解的任务,但牺牲了效率;双塔架构:优先保证计算效率,适合大规模检索场景,但牺牲了细粒度交互;统一Transformer架构:追求架构统一与生成能力,是未来多模态大模型的核心方向,但需要解决算力与数据依赖的问题。
2026-02-25 10:58:16
895
原创 多模态大模型学习笔记(七)——多模态数据的表征与对齐
多模态表征学习:将原始异质模态数据通过编码器转换为低维、稠密、语义可分的特征向量,实现异构数据的统一数值化表达,为跨模态对齐提供基础特征支撑。跨模态对齐在统一语义空间中,让语义相同的异质模态特征相互靠近、语义不同的特征相互远离,建立模态间精准语义关联的技术过程。
2026-02-24 16:53:09
1105
原创 多模态大模型学习笔记(六)——多模态全景认知
模态是信息的来源或存在形式,是机器感知和理解世界的“信息维度”。在人工智能领域,任何具备独立表征形式的信息载体,都可被定义为一种模态。基础模态类型:文本/语义、音频/语音、图像、视觉、传感器数据等;视觉 ≠ 视频,在多模态语境中,视频是复合模态载体,其本质为「视觉帧(静态视觉)+ 音频(时序声学)+ 可选文本字幕」的多模态组合。
2026-02-24 15:59:02
1029
原创 多模态大模型学习笔记(五)—— 神经网络激活函数完整指南
激活函数本质是一个非线性函数f(x)yfzf∑wixibyfzf∑wixibx_i- 输入信号w_i- 权重参数b- 偏置项z- 线性组合结果y- 神经元输出。
2026-02-12 00:59:01
306
原创 多模态大模型学习笔记(四)——从零掌握TF-IDF:原理、实战与可视化
TF-IDF = 词频 × 逆文档频率TF衡量词语在当前文档的重要性IDF衡量词语的独特性/区分度TF-IDF综合两者,提取真正有区分度的关键词。
2026-02-11 00:10:41
717
原创 多模态大模型学习笔记(三)——基于测井数据的电阻率预测:地球物理多参数线性回归分析
Warnings:specified.训练样本:3345 个油井测井数据显著地球物理参数:AC(声波时差)、K(钾含量)参数分布特征:多数测井参数呈现右偏分布,符合地质统计规律。
2026-02-10 00:51:37
1076
git常用的操作手册和指南
2024-08-27
基于智谱AI和LangChain实现RAG应用代码
2024-08-27
基于LangChain和智谱API搭建知识库
2024-08-26
百度的关键字爬取相关图片
2024-08-26
实现一个简单的视频对象追踪应用,该应用支持多种追踪算法,并允许用户实时选择和追踪视频中的对象 这种技术在许多领域都有广泛的应用
2024-04-18
从指定路径读取图像文件、利用OpenCV进行图像处理,以及使用Caffe框架进行深度学习预测的过程
2024-04-18
Python库d和OpenCV来实现眼部闭合检测,主要用于评估用户是否眨眼
2024-04-18
基于Opencv实现答题卡识别系统中的各个功能
2024-04-18
停车位识别基于深度学习的停车位识别系统利用计算机视觉技术来自动检测和监控停车位的占用情况 地平线
2024-04-17
全景图像拼接;实现特征点检测与描述子
2024-04-17
基于Opencv与tesseract 实现的文本识别
2024-04-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅