自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

swpucwf的博客

写自己的笔记,让别人卷去吧

  • 博客(332)
  • 资源 (3)
  • 收藏
  • 关注

原创 多模态大模型学习笔记(三十六)—— 扩散模型与可控生成:从AI涂鸦到精准作画的技术革命

从VAE和GAN的奠基,到扩散模型的爆发,再到ControlNet和LoRA等可控生成技术的成熟,AI生成技术在短短几年内取得了令人瞩目的进步。今天,我们已经可以用AI生成高质量的图像、视频、音频和3D模型,这些技术正在深刻改变设计、影视、游戏、教育等众多行业。更高的效率:随着LCM等加速技术的不断进步,AI生成将从"秒级"进入"实时级",实现真正的交互式生成更强的可控性:更精细的结构控制、更准确的语义对齐、更灵活的风格组合,让AI真正成为人类的创意助手统一的生成模型。

2026-04-16 22:22:16 327

原创 多模态大模型学习笔记(三十五)——OCR全景认知:从字符识别到多模态理解的百年演进

OCR的全称是Optical Character Recognition(光学字符识别),本质上是一种从视觉信号中恢复语言符号的任务。从底层技术来看,它是一个典型的计算机视觉任务:输入是图像信号(像素矩阵),输出是文本符号序列。但从上层目标来看,OCR更是一种视觉与语言的跨模态映射——模型需要将图像中的视觉特征(笔画、形状、布局)映射到人类可理解的语言空间。从1920年代的模板匹配到今天的多模态大模型,OCR技术已经走过了百年的发展历程。

2026-04-15 23:01:33 378

原创 电商智能客服智能体——基于LangChain的电商智能客服 Agent 架构设计与实现(二)

多源信息联合推理:需要联合商品数据库与优惠文本规则进行回答。显式工具调用需求:模型自身并不直接掌握实时商品与库存信息,必须借助外部工具。数值计算安全要求:价格、折扣与满减逻辑必须通过受控计算模块执行。多轮上下文依赖:后续问题经常省略商品名称,需要依赖对话记忆完成补全。业务规则约束性强:如“满 300 元半价”等规则若被语言模型误解,会直接导致答复错误。因此,v2 版本的核心目标不是简单“接入 LangChain”,而是构建一个具备工具感知、上下文保持、业务规则约束与安全计算能力。

2026-04-14 13:52:18 351

原创 电商智能客服智能体——基于 ReAct 范式的 Agent 架构设计与代码实现(一)

多源信息整合:需要同时查询商品数据库、优惠政策文档等多源数据数值计算需求:涉及折扣计算、满减规则等数学运算上下文依赖:多轮对话中需要保持上下文连贯性安全性要求:计算过程需防止代码注入等安全风险因此,本文设计并实现了一套基于 ReAct 范式的电商智能客服 Agent 系统,旨在解决上述挑战。本文设计并实现了一套基于 ReAct 范式的电商智能客服 Agent 系统。该系统通过显式的推理-行动-观察循环,有效解决了电商客服场景中的多源信息整合、数值计算安全性和上下文记忆等关键问题。

2026-04-13 15:00:39 410 1

原创 多模态大模型学习笔记(三十四)——ChatTTS:新一代中文语音合成工具原理与实战解析

ChatTTS的核心优势在于中文优化、端到端易用性、灵活的可控性:通过文本精炼模块解决自然度问题,通过说话人嵌入实现音色定制,通过可控采样平衡稳定性与多样性。从代码实战来看,其API设计简洁,仅需几行代码即可实现高质量语音生成,是中文TTS场景的优质选择。未来,ChatTTS还可结合微调(如定制专属音色、行业术语适配)进一步提升场景适配能力,相信会成为中文语音合成领域的主流工具之一。

2026-04-12 23:39:52 391

原创 CCPD数据集全解析:中文车牌识别的“双黄金标准“

全称:Chinese City Parking Dataset(中国城市停车场数据集)发布机构:中国科学技术大学(USTC)多媒体计算与通信实验室首次发布:2018年(CCPD2018)最新版本:CCPD2020 + CCPD-Green(新能源车牌专项)数据总量:超过50万张标注图片开源协议:MIT协议(完全免费,可商用)官方地址CCPD数据集的出现,极大地推动了中文车牌识别技术的发展。它以超大的规模、丰富的场景、精准的标注和完全开源的特性,成为了中文车牌识别领域不可替代的"黄金标准"。

2026-04-10 23:49:29 444

原创 多模态大模型学习笔记(三十三)——基于YOLOv11的安全帽佩戴检测算法

识别三类对象helmet:佩戴安全帽的人员head:未佩戴安全帽的人员person:人体实时处理:支持视频流和图像的实时检测,满足工地实时监控需求高准确率:在复杂场景下保持较高的检测准确率,减少误检和漏检轻量化部署:支持边缘设备部署,降低硬件成本方面成果准确率推理速度模型大小训练时间~24 小时 (300 epoch)部署支持。

2026-04-07 21:54:18 406

原创 多模态大模型学习笔记(三十)—— 基于YOLO26 Pose实现车牌检测

YOLO(You Only Look Once)系列是目标检测领域的基准模型,而是其最新一代用于关键点检测的变体。fill:#333;important;important;fill:none;color:#333;color:#333;important;fill:none;fill:#333;height:1em;输入图像640×640BackboneCSPDarknetNeckPAN特征融合Head检测头边界框x, y, w, h关键点4个角点坐标。

2026-04-07 16:08:44 421

原创 多模态大模型学习笔记(三十一)—— 基于CCT(Compact Convolutional Transformers)实现中文车牌数据集微调

给定输入图像I∈RH×W×C\text{给定输入图像 } I \in \mathbb{R}^{H \times W \times C}给定输入图像I∈RH×W×C求解:arg⁡max⁡PT∣I\text{求解:} \arg\max P(T | I)求解:argmaxPT∣I其中Tt1t2tn是车牌文本序列\text{其中 } T = [t_1, t_2, \ldots, t_n] \text{ 是车牌文本序列}其中。

2026-04-07 15:36:51 392

原创 多模态大模型学习笔记(二十九)—— 生成对抗网络(GAN)从原理到实战:实现第一个生成模型

生成对抗网络(Generative Adversarial Networks,GAN)是深度学习领域最具影响力的创新之一。自2014年Ian Goodfellow提出以来,GAN彻底改变了我们对生成模型的认知,为图像生成、风格迁移、超分辨率、虚拟人创建等领域开辟了全新道路。本文将从出发,结合,带你从零开始理解并实现自己的第一个GAN模型。无需深厚的数学基础,只需掌握基础的深度学习和Python知识,即可跟随本文完成实战。

2026-04-03 23:27:37 465

原创 多模态大模型学习笔记(二十八)—— 基于Qwen多模态大模型的城市道路积水智能检测助手实战

多模态大模型(Multimodal Large Language Model, MLLM)是能够同时理解和生成多种模态数据(文本、图像、音频、视频)的人工智能模型。系统架构:分层设计,职责清晰,易于扩展多模态技术:深入讲解视觉理解原理和 Qwen-VL-Max 特点Prompt 工程:角色设定、思维链、结构化输出等技巧工程实践:图像压缩、记忆功能、模板配置等实现细节大模型技术正在深刻改变各行各业的运作模式。在智慧城市建设中,多模态大模型为传统视觉检测任务带来了全新的解决思路。

2026-04-01 16:42:09 414

原创 多模态大模型学习笔记(二十七)—— 核心技术篇④ | 让虚拟人“活起来”:口型驱动与面部动画全技术拆解

口型驱动与面部动画技术,是虚拟人从“静态数字形象”到“动态交互分身”的关键桥梁Wav2Lip是嘴型同步的行业基准,以极致的同步精度成为基础口播、配音修正的入门首选,开箱即用、成本极低;是实时全脸驱动的标杆,实现了低延迟、高还原的全脸表情与动作驱动,是当前虚拟人直播、实时交互的商业化最优解;VASA-1是影视级超逼真技术的前沿,实现了嘴型、表情、眼神、微动作的全维度拟人化还原,代表了未来的技术发展方向;

2026-03-27 22:56:08 463

原创 多模态大模型学习笔记(二十六)—— 核心技术篇③ | 虚拟人的声音情感:从语音合成到声音克隆

在文本预处理的Refine阶段,通过设置prompt参数,可统一控制整段语音的口语化程度、笑意、停顿节奏参数中的标签为全局控制指令,可自由组合,实现整段语音的风格统一。语音合成是基础,ChatTTS凭借精细化的语气控制、流式输出,成为国内虚拟人场景的开源首选,让虚拟人能自然、有情感地开口说话;声音克隆是升级,OpenVoice实现了零样本的高精度音色复刻,让虚拟人拥有专属声线,适配克隆式虚拟人、真人IP数字分身等场景;工业级方案。

2026-03-27 22:38:11 524

原创 系统架构师学习笔记(四)——计算机体系结构之校验码

校验码(Check Code)是指在原始数据(信息位)基础上,按照特定算法生成若干附加位(校验位),并将信息位与校验位组合成新的编码。数据传输/存储时发送该编码,接收方通过相同算法验证校验位,判断数据是否出错;部分高级校验码还能定位错误位置并完成纠正。信息位:需要传输/存储的原始数据位,是校验的核心对象;校验位:由信息位通过算法生成的附加位,用于检错/纠错,位数远少于信息位,仅占少量存储空间/传输带宽。每个校验位PrP_rPr​负责校验位序的二进制表示中第r−1r-1r−1位为1P。

2026-03-26 17:27:57 498

原创 系统架构师学习笔记(三)——计算机体系结构之存储系统

专用处理器是针对某一类特定任务、特定应用场景进行硬件架构和指令集优化的处理器,其设计摒弃了通用CPU“全场景适配”的特点,聚焦于单一/一类任务的高效执行,在特定场景下的处理效率、功耗控制远优于通用CPU。在存储系统中,专用处理器主要承担存储数据的处理、存储设备的控制、存储任务的调度等工作,核心目的是弥补通用CPU在存储专用任务上的效率短板,将通用CPU从繁琐的专用任务中解放,专注于核心运算和控制。存储系统是计算机的“数据仓库”,其核心设计思想是层次化结构。

2026-03-26 16:33:14 508

原创 系统架构师学习笔记(二)——计算机体系结构之指令系统

指令系统是计算机硬件的语言系统,是CPU能够直接识别和执行的全部指令的总称,它直接反映了一台计算机所具备的基本功能——不同的处理器(如x86、ARM、RISC-V)拥有不同的指令系统,这也是决定处理器性能、适用场景的关键因素。从本质上来说,指令系统是软件对硬件的抽象接口对软件而言,程序员(或编译器)只需按照指令系统的规则编写程序,无需关心硬件的具体实现;对硬件而言,CPU的设计完全围绕指令系统展开,其运算器、控制器、寄存器等部件都是为了高效执行指令系统中的指令。

2026-03-26 15:27:46 803

原创 系统架构师学习笔记(一)——计算机体系结构之计算机硬件组成

计算机硬件的核心组成围绕“运算、控制、存储、输入、输出”五大基本功能展开,CPU是运算和控制的核心,存储器负责数据和程序的存储,I/O设备实现外部信息交互,三者通过总线连接成一个有机整体,共同完成计算机的所有硬件操作。理解计算机硬件组成,是学习计算机体系结构、指令系统、存储系统等后续知识的基础,只有掌握了各部件的功能和协同逻辑,才能真正理解计算机的工作原理。

2026-03-26 10:46:14 662

原创 多模态大模型学习笔记(二十五)—— 核心技术篇② | 虚拟人的大脑:国内头部大语言模型全解析

大语言模型是虚拟人的“大脑”,决定了虚拟人的交互上限。如果你需要全模态能力、完善的生态,通义千问Qwen系列是首选;如果你关注推理效率、部署成本,DeepSeek系列是最优解;如果你需要企业级合规性、垂直行业落地,GLM系列、百川系列更适配;如果你需要超长上下文、知识库问答能力,Kimi系列更有优势。而选择模型的核心,不是盲目追求参数最大、能力最全的模型,而是根据你的虚拟人落地场景,选择最适配、性价比最高的方案,同时通过标准化的评测体系,验证模型在真实场景中的效果。

2026-03-25 23:22:13 501

原创 多模态大模型学习笔记(二十四)—— 核心技术篇① | 虚拟人形象生成:扩散模型与ControlNet原理

虚拟人形象生成的核心,是扩散模型为代表的AIGC图像生成技术。从VAE、GAN到扩散模型,技术迭代的核心方向,始终是更低的生成门槛、更高的生成质量、更强的可控性。对于虚拟人创作来说,Stable Diffusion是基础工具,LoRA/DreamBooth能帮你固定虚拟人的专属形象,ControlNet能帮你精准控制虚拟人的姿态和动作,三者结合,就能完成高质量虚拟人形象的全流程生成。

2026-03-23 22:02:27 459

原创 多模态大模型学习笔记(二十三)——一文搞懂数虚拟人:从定义、分类到核心技术全景

虚拟人,是由视觉形象、语音以及交互系统共同驱动的数字分身。可视化的视觉形象:2D/3D的数字人物外观,是虚拟人的视觉载体;可输出的语音能力:能完成语音合成、口型匹配,实现拟人化的语音表达;可响应的交互系统:能接收用户指令、生成对应反馈,完成双向交互。简单来说,只有一张静态的数字人物图片,不能叫虚拟人;只有配音和画面、但无法实时交互的视频形象,也不是完整意义上的虚拟人。虚拟人的本质,是技术驱动的“数字拟人化载体”。

2026-03-23 20:40:17 604

原创 多模态大模型学习笔记(二十二)——大模型微调全解:从全量调参到LoRA的参数高效训练实战

大模型微调是预训练大模型落地到具体场景的核心环节,从全量调参到以LoRA为代表的参数高效微调,技术的发展大幅降低了大模型定制化的门槛。对于资源充足的机构,全量调参可在大数据场景下实现最优的任务适配;对于中小团队与个人开发者,以LoRA、QLoRA为核心的PEFT方案,是落地大模型定制化的首选,在极低的资源成本下,即可实现媲美全量调参的效果;而SFT微调的效果上限,始终由数据质量决定,标准化的样本设计、严格的数据清洗与校验,是微调成功的核心前提。

2026-03-21 23:58:25 469

原创 多模态大模型学习笔记(二十一)—— 基于 Scaling Law方法 的大模型训练算力估算与 GPU 资源配置

总计算量6×N×D\text{总计算量} = 6 \times N \times D总计算量6×N×D6ND 公式可以快速估算训练所需的计算量资源计算公式帮助确定 GPU 采购数量N 与 D 的配比影响模型的最终性能实际应用中需要考虑 GPU 使用率、通信开销等因素掌握 Scaling Law,可以帮助 AI 团队更科学地规划大模型训练项目,避免资源浪费,提高训练效率。

2026-03-20 23:35:37 532

原创 多模态大模型学习笔记(二十)—— 基于 Qwen的 LoRA 意图分类微调实战

本文介绍如何使用LoRA技术对模型进行微调,实现银行客服意图分类任务。LoRA 微调的基本原理和参数配置使用 PEFT 库进行高效参数微调完整的文本分类任务流程微调效果评估与对比分析数据准备:JSONL 格式,文本+标签模型加载:使用 Transformers 加载预训练模型LoRA 配置:仅 0.071% 参数可训练训练流程:3 分钟完成 1600 条样本训练效果评估:Macro-F1 从 0.07 提升到 0.97用极少的可训练参数,达到接近全参数微调的效果。

2026-03-19 00:05:51 487

原创 多模态大模型学习笔记(十九)——基于 LangChain+Faiss的本地知识库问答系统实战

文档加载器:支持 PDF、Word、TXT 等多种格式文本分割器:智能分割长文档向量存储:集成 FAISS、Qdrant、Chroma 等向量数据库检索链:自动完成"检索-生成"流程模型封装:统一接口调用各种 LLM由于直接使用"""自定义本地 BGE Embedding 类""""""将文档列表转换为向量列表"""texts,output,# L2 归一化p=2,dim=1# 返回 Python 列表"""将查询文本转换为向量"""

2026-03-18 00:02:45 820 1

原创 多模态大模型学习笔记(十八)——基于 DeepSeek-7B 的 LoRA 微调训练实战教程

LoRA 原理:通过低秩矩阵实现参数高效微调4bit 量化:大幅降低显存需求,消费级 GPU 可训练指令微调:使用三元组数据教会模型回答格式数据处理:格式化 + Tokenize + Labels 准备。

2026-03-17 23:06:55 494

原创 多模态大模型学习笔记(十七)——基于 BGE+DeepSeek+Qdrant 的 RAG 文档问答系统实战与优化

RAG(Retrieval-Augmented Generation,检索增强生成) 是一种结合检索和生成的 AI 技术架构。它的核心思想是:为什么需要 RAG?RAG 的工作流程:什么是嵌入模型(Embedding Model)?嵌入模型的作用是将文本转换为固定长度的向量(数字数组)。转换后的向量能够捕捉文本的语义信息——语义相似的文本,其向量在空间中的距离也更接近。BGE-large-zh-v1.5 特点:为什么选择 BGE?什么是大语言模型(LLM)?大语言模型是基于海量文本数据训练的深度学习模型

2026-03-15 21:49:33 510

原创 多模态大模型学习笔记(十六)——Transformer 学习之 Decoder Only

Mij0j≤i(可关注)−∞ji(不可关注)M_{i,j} =0, & j \le i \quad \text{(可关注)} \\-\infty, & j > i \quad \text{(不可关注)}Mij​0−∞​j≤i(可关注)ji(不可关注)​KV Cache 缓存已生成 Token 的 K/V 矩阵,每轮仅计算新 Token 的 Q 矩阵,与缓存的 K/V 计算注意力,不再重复计算前文的 K/V,大幅降低计算量。

2026-03-10 10:53:08 525

原创 多模态大模型学习笔记(十五)——Transformer 学习之 Masked-Attention

Masked-Attention是Transformer生成式能力的核心基石,它通过下三角掩码强制模型遵守自回归生成的规则,确保了生成文本的逻辑性和连贯性。核心思想:通过下三角矩阵屏蔽未来Token,强制模型“向后看”。关键应用:GPT等生成式大模型的核心模块。拓展方向:在多模态场景下,掩码逻辑需要适配图文混合序列的生成需求。

2026-03-10 09:19:36 626

原创 多模态大模型学习笔记(十四)——transformer学习之Self-Attention

基础单元:Scaled Dot-Product Attention通过“Q×Kᵀ相似度计算→缩放→Mask→SoftMax归一化→加权求和V”,实现单个Token的全局语义融合;升级版本:Multi-Head Attention通过“拆分多头→独立注意力计算→拼接→线性投影”,捕捉多维度语义关联,是Transformer的核心;核心优势:并行计算效率高、长距离依赖建模能力强,是大模型处理文本、图像等序列数据的基础。

2026-03-09 17:03:45 396

原创 多模态大模型学习笔记(十三)——transformer学习之位置编码

位置编码是Transformer架构的核心基础模块,从绝对位置编码到相对位置编码,再到RoPE,其演进脉络始终围绕“如何更精准地建模序列位置信息”展开。入门学习:先从原生绝对位置编码入手,理解位置信息注入的核心逻辑,再逐步深入相对位置编码和RoPE。工业落地:在大模型场景中,优先选择RoPE方案,兼顾外推性和精准性;在跨模态场景中,需根据模态特性适配位置编码方案。进阶优化:在长文本场景中,可通过RoPE的外推优化(如NTK-aware RoPE)提升模型对超长序列的处理能力;

2026-03-09 16:04:33 387

原创 多模态大模型学习笔记(十二)——transformer学习之Embedding

Embedding(嵌入),本质是将离散的、高维稀疏的符号数据(如单词、句子、图片、音频),映射到低维、稠密的连续向量空间的过程,最终生成的这个固定长度的向量,就叫Embedding向量(嵌入向量)。计算机无法直接处理人类的语言、图像等符号信息:比如单词“苹果”,计算机无法直接理解它的含义,只能先把它转换成一串数字;

2026-03-09 15:11:01 484

原创 多模态大模型学习笔记(十一)——transformer学习之绪论

上图为Transformer完整架构示意图,清晰展示了编码器、解码器的核心模块及流程,后续我们将逐模块拆解其原理。

2026-03-09 11:08:40 345

原创 多模态大模型学习笔记(十)——基于卷积神经网络的图像分类实战

这篇文章围绕一套可直接运行的 CNN 代码展开,便于对照实现与输出结果。

2026-02-28 17:37:30 783

原创 多模态大模型学习笔记(九)——多模态任务类型核心任务:生成、理解、检索、推理控制

多模态生成类任务,是指以一种或多种模态为输入(如文本、图像、音频),通过模型学习模态间的语义映射规律,生成全新的、具备语义一致性与实用价值的目标模态内容的任务。其核心诉求是可控性(生成内容符合输入指令)、一致性(时空、风格、语义无冲突)与高质量(接近人类创作水平)。多模态理解类任务,是指模型从单模态或多模态混合输入中,提取核心信息、解析语义关联、完成结构化表达的任务。它是多模态技术的“感知基础”,核心目标是**“读懂”**——将非结构化的多模态数据转化为机器可处理的结构化语义,支撑后续的生成、检索与推理。

2026-02-25 15:38:58 1119

原创 多模态大模型学习笔记(八)——多模态模型架构演进线路与对比总结

融合-编码架构:优先保证模态交互深度,适合需要深度理解的任务,但牺牲了效率;双塔架构:优先保证计算效率,适合大规模检索场景,但牺牲了细粒度交互;统一Transformer架构:追求架构统一与生成能力,是未来多模态大模型的核心方向,但需要解决算力与数据依赖的问题。

2026-02-25 10:58:16 895

原创 多模态大模型学习笔记(七)——多模态数据的表征与对齐

多模态表征学习:将原始异质模态数据通过编码器转换为低维、稠密、语义可分的特征向量,实现异构数据的统一数值化表达,为跨模态对齐提供基础特征支撑。跨模态对齐在统一语义空间中,让语义相同的异质模态特征相互靠近、语义不同的特征相互远离,建立模态间精准语义关联的技术过程。

2026-02-24 16:53:09 1105

原创 多模态大模型学习笔记(六)——多模态全景认知

模态是信息的来源或存在形式,是机器感知和理解世界的“信息维度”。在人工智能领域,任何具备独立表征形式的信息载体,都可被定义为一种模态。基础模态类型:文本/语义、音频/语音、图像、视觉、传感器数据等;视觉 ≠ 视频,在多模态语境中,视频是复合模态载体,其本质为「视觉帧(静态视觉)+ 音频(时序声学)+ 可选文本字幕」的多模态组合。

2026-02-24 15:59:02 1029

原创 多模态大模型学习笔记(五)—— 神经网络激活函数完整指南

激活函数本质是一个非线性函数f(x)yfzf∑wixibyfzf∑wi​xi​bx_i- 输入信号w_i- 权重参数b- 偏置项z- 线性组合结果y- 神经元输出。

2026-02-12 00:59:01 306

原创 多模态大模型学习笔记(四)——从零掌握TF-IDF:原理、实战与可视化

TF-IDF = 词频 × 逆文档频率TF衡量词语在当前文档的重要性IDF衡量词语的独特性/区分度TF-IDF综合两者,提取真正有区分度的关键词。

2026-02-11 00:10:41 717

原创 多模态大模型学习笔记(三)——基于测井数据的电阻率预测:地球物理多参数线性回归分析

Warnings:specified.训练样本:3345 个油井测井数据显著地球物理参数:AC(声波时差)、K(钾含量)参数分布特征:多数测井参数呈现右偏分布,符合地质统计规律。

2026-02-10 00:51:37 1076

git常用的操作手册和指南

1. **配置 Git**:设置用户名和邮箱,确保提交记录中包含正确的用户信息。 2. **初始化仓库**:在本地目录中创建一个新的 Git 仓库。 3. **克隆仓库**:从远程仓库复制一份到本地,获取已有项目的副本。 4. **查看状态**:检查当前文件的状态,了解哪些文件被修改、删除或新增。 5. **添加文件**:将修改添加到暂存区,为提交做好准备。 6. **提交更改**:将暂存区的内容保存到本地仓库的历史记录中。 7. **查看历史**:查看项目的提交历史,了解更改的时间线。 8. **推送更改**:将本地提交的更改发送到远程仓库,与他人共享更新。 9. **拉取更改**:从远程仓库获取最新的更新,并将其合并到本地仓库。 10. **分支管理**:创建、切换和删除分支,便于独立开发不同的功能或版本。 11. **合并分支**:将不同分支的更改合并到一个分支中,整合开发成果。

2024-08-27

基于智谱AI和LangChain实现RAG应用代码

基于智谱AI和LangChain实现的RAG(Retrieval-Augmented Generation)应用是一种前沿的自然语言处理技术,结合了强大的语言生成模型和高效的检索系统。通过智谱AI的语言模型,RAG应用能够理解和生成高质量的自然语言文本,而LangChain提供的检索功能则确保了回答的准确性和相关性。 在这个系统中,用户提出的问题首先通过向量数据库进行检索,从中提取出最相关的文档或片段。随后,智谱AI模型利用这些检索到的上下文生成一个简明、准确的回答。通过集成会话记忆功能,RAG应用还支持多轮对话,能够保持上下文连贯性,适应复杂的交互需求。 这种技术的应用场景广泛,从智能问答系统、在线教育,到客户支持,RAG应用都能显著提升用户体验,提供更有针对性和深度的回答。总的来说,基于智谱AI和LangChain的RAG应用为下一代智能对话系统奠定了坚实的技术基础。

2024-08-27

基于LangChain和智谱API搭建知识库

基于LangChain和智谱API的知识库是一个强大的资源,它结合了自然语言处理和知识图谱技术,为用户提供全面且准确的知识检索和查询功能。LangChain是一个先进的语言处理引擎,能够实现文本的语义理解和分析,从而从大量的文本数据中提取有用的信息。智谱API则是一个基于知识图谱的搜索引擎,它能够将不同领域的知识进行关联和组织,形成一个完整的知识网络。 通过LangChain和智谱API的结合,用户可以方便地利用自然语言进行查询,无需专业的检索技巧或复杂的搜索语法。只需要输入相关领域的问题或关键词,系统就能自动理解用户的意图,并从知识库中找到最相关的资源。无论是科学、技术、医学还是人文社科领域的问题,都可以得到及时和正确的答案。 此外,LangChain和智谱API还支持多语言搜索和跨语言信息的处理。不论用户使用的是中文、英文还是其他语言,系统都能够进行准确的语义分析和知识检索。 总之,基于LangChain和智谱API的知识库提供了强大的语义理解和知识检索功能,帮助用户快速获取所需的信息,提升了信息检索的效率和准确性。

2024-08-26

百度的关键字爬取相关图片

百度关键字爬虫是一种用于从百度搜索引擎中抓取相关搜索结果的工具。它可以根据用户指定的关键字进行搜索,并将搜索结果保存为结构化的数据,如网页链接、标题、描述等信息。 Python编程语言:百度关键字爬虫常使用Python编写。如果您还不熟悉Python,可以学习一些基础知识,如语法、数据类型、循环和函数等。 爬虫框架:有很多Python爬虫框架可供选择,如Scrapy、BeautifulSoup和Selenium等。这些框架可以帮助您更方便地实现爬虫功能,处理网页和提取数据。您可以根据自己的需求选择合适的框架。 百度搜索API:如果您想更高效地获取百度搜索结果,可以考虑使用百度搜索API。该API提供了一系列接口,可以帮助您进行搜索,并获取相关的信息。您需要注册百度开发者账号,并获取API密钥。 数据存储:爬取的数据可以保存在本地文件中,也可以存储在数据库中,如MySQL或MongoDB等。您可以根据自己的需求选择适合的存储方式。 反爬虫策略:为了防止被百度的反爬虫机制封禁,您需要了解相关的反爬虫策略,并使用一些技巧来规避检测,如设置合适的爬取频率、使用代理IP和User-Age

2024-08-26

用于图像分割的代码源码

unet++实现代码参考源码

2024-04-21

图像分割的学习参考代码

图像分割的学习参考代码

2024-04-21

yolo v7的训练代码,包括导入导出

yolov7 的训练代码,包括数据集的制作,训练代码;

2024-04-20

实现一个简单的视频对象追踪应用,该应用支持多种追踪算法,并允许用户实时选择和追踪视频中的对象 这种技术在许多领域都有广泛的应用

实现一个简单的视频对象追踪应用,该应用支持多种追踪算法,并允许用户实时选择和追踪视频中的对象。这种技术在许多领域都有广泛的应用,包括安全监控、人机交互和自动驾驶车辆等。

2024-04-18

从指定路径读取图像文件、利用OpenCV进行图像处理,以及使用Caffe框架进行深度学习预测的过程

从指定路径读取图像文件、利用OpenCV进行图像处理,以及使用Caffe框架进行深度学习预测的过程。程序能够有效地对图像进行分类预测,并将结果直观地显示出来,适用于教学或研究目的。

2024-04-18

Python库d和OpenCV来实现眼部闭合检测,主要用于评估用户是否眨眼

这段代码使用了Python库d和OpenCV来实现眼部闭合检测,主要用于评估用户是否眨眼。下面是代码的主要步骤和相关的代码片段: ### 步骤一:导入必要的库和设置参数 首先,代码导入了必要的Python库,如dlib、OpenCV和scipy。通过`argparse`设置了输入视频和面部标记预测器的参数。 ```python from scipy.spatial import distance as dist from collections import OrderedDict import numpy as np import argparse import time import dlib import cv2 ``` ### 步骤二:定义面部关键点索引 使用`OrderedDict`定义了包含68个点的面部关键点,用于眼部分析。 ```python FACIAL_LANDMARKS_68_IDXS = OrderedDict([ ("mouth", (48, 68)), ("right_eyebrow", (17, 22)), ("left_e

2024-04-18

使用Python库dlib和OpenCV来实现面部特征点的检测和标注

使用Python库dlib和OpenCV来实现面部特征点的检测和标注。

2024-04-18

基于Opencv实现答题卡识别系统中的各个功能

实现答题卡识别系统中的各个功能。每个步骤都是自动化处理的关键部分,确保系统能够准确地读取和评分答题卡。自动化地完成了从读取图像到输出成绩的整个流程通过填涂密度判断学生选择,通过计算填涂区域的像素密度来判断学生的的选项。然后将这个选择与答案键中的正确选项进行比较,统计出正确的答案数量。

2024-04-18

停车位识别基于深度学习的停车位识别系统利用计算机视觉技术来自动检测和监控停车位的占用情况 地平线

基于深度学习的停车位识别系统利用计算机视觉技术来自动检测和监控停车位的占用情况。这种系统通常通过安装在停车场的摄像头来实现,摄像头捕捉的图像数据被送入深度学习模型进行分析。这些模型能够识别出图像中的停车位,并确定每个停车位是否被占用。此技术不仅提高了停车效率,减少了寻找停车位的时间,还可以被应用于智能交通系统中,实时更新停车信息,为驾驶者提供便利。深度学习模型的训练过程包括大量的图像数据,这些数据需要标注停车位的位置和状态,以训练模型准确识别。

2024-04-17

全景图像拼接;实现特征点检测与描述子

特征点检测与描述子计算: 使用 SIFT 算法检测图像的关键点,并计算每个点的描述子。这一步是识别图像中的特征并提取有用信息的关键步骤。 特征点匹配: 使用 KNN 和比值测试来筛选良好的匹配点。这一步是确保两图中对应的特征点确实相似,为后续的图像对齐打下基础。 计算单应性矩阵并进行图像变换: 使用 RANSAC 算法基于匹配点对计算单应性矩阵,这一矩阵能够描述一张图像到另一张图像的透视变换。 使用该矩阵通过透视变换将一张图像变形,使其与另一张图像对齐。 图像拼接: 将变换后的图像与另一张图像合并,形成一个单一的更大的图像。 结果展示: 可选地显示特征点的匹配情况,帮助理解两图是如何通过匹配点关联起来的。 ———————————————— 版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 原文链接:https://blog.csdn.net/weixin_42917352/article/details/13789

2024-04-17

基于Opencv与tesseract 实现的文本识别

应用场景: 文档数字化:将纸质文档扫描后识别为数字文本。 自动化表单处理:从填写的表单中提取信息。 车牌识别:用于交通监控或自动收费系统。 辅助技术:帮助视觉障碍人士阅读印刷材料。 多语言支持:Tesseract 支持100多种语言的识别。 高度可定制:用户可以训练Tesseract来识别新的字体或优化特定语言的识别。 多种输出格式:Tesseract 可以输出普通文本、hOCR(带有布局信息的HTML)、PDF等格式。 集成易用:可以通过命令行使用,也可通过其API集成到其他应用程序中,比如通过pytesseract在Python中使用。

2024-04-17

基于OpenCV与模版匹配 实现信用卡、银行卡号识别

基于OpenCV与模版匹配 实现信用卡、银行卡号识别

2024-04-17

FasterRcnn.zip

FasterRcnn的代码复现

2021-11-17

MTCNN相关代码完美实现

深度学习 ,目标检测 、卷积神经网络

2021-11-05

Opencv从入门到跑路images.zip

用来实现博客上的资料

2021-07-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除