自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

技术博客

技术博客

  • 博客(476)
  • 收藏
  • 关注

原创 gradio学习代码部分

gr.File(label="上传文件",file_types=["image", "video", "audio", "text", "pdf"])dropdown = gr.Dropdown(choices=["选项1", "选项2", "选项3"], label="选择选项")dropdown = gr.Dropdown(choices=["选项1", "选项2", "选项3"], label="选择选项")gr.Textbox(label="输入框", placeholder="请输入内容")

2026-04-25 18:01:26 178

原创 Python ORM神器之SQLAlchemy基本使用完全指南

SQLAlchemy是Python中最流行的ORM框架,提供了优雅的数据库操作方式。文章介绍了SQLAlchemy的核心概念(Engine、Session、Model)、基本使用方法(安装、模型定义、数据增删改查)以及高级特性(事务管理、上下文管理器、连接池配置)。通过SQLAlchemy,开发者可以用面向对象的方式操作多种数据库,避免直接编写SQL语句,提高开发效率和代码可维护性。文章包含详细代码示例,帮助读者快速掌握SQLAlchemy的核心功能和使用技巧。

2026-04-16 10:09:18 382

原创 MySQL常用函数

本文总结了MySQL中常用的日期处理、字符串处理和聚合函数。日期函数部分介绍了获取当前日期时间、日期格式转换、日期加减运算、时间差计算等方法;字符串函数包括字符串长度计算、子串提取、拼接替换、大小写转换等操作;聚合函数部分列举了COUNT、SUM、AVG、MAX、MIN等常用统计函数。这些函数涵盖了MySQL数据库操作中最常用的数据处理需求,为开发人员提供了全面的参考。

2026-04-15 09:44:31 223

原创 UML 定时图讲解

摘要:UML定时图是UML2.0新增的图表类型,用于描述对象状态随时间的变化及事件互动。主要组件包括水平时间轴、垂直生命线(代表对象)、状态标记和时间约束。特别适用于分析并发系统和实时系统,能清晰展示系统行为的时间特性。通过温控系统示例展示了状态随时间转换的过程,并提供了10道测试题及其解析,帮助理解定时图的核心概念和应用场景。

2026-03-23 09:41:27 410

原创 软件架构风格 MDA

摘要:MDA(模型驱动架构)是OMG提出的以模型为核心的软件开发方法,通过CIM、PIM、PSM三层模型实现业务逻辑与技术实现的分离。核心机制包括模型自动转换和关注点分离,旨在提升开发效率、可移植性和可维护性。其中,PIM描述技术中立逻辑,PSM添加平台细节,一个PIM可转换为多个PSM。MDA适用于大型企业应用,实施需特定转换工具,面临学习成本等挑战。关键优势是促进标准化,而非降低可移植性。

2026-03-22 11:06:01 359

原创 13.python numpy入门与进阶

NumPy是Python科学计算的核心库,通过C语言实现提供高效数值运算,比原生Python列表快10-100倍。它支持多维数组(ndarray)操作,包含丰富的数学函数、线性代数和随机数生成功能。摘要涵盖:1)环境配置与安装;2)数组创建与基本操作(形状变换、数据类型、索引切片);3)数学运算(均值/方差/极值等统计计算);4)特殊矩阵生成(零矩阵/单位阵/随机矩阵);5)数据存储方法(save/load/npz压缩)。NumPy作为Pandas、Scikit-learn等库的基础,是处理数值计算和数据分

2026-02-09 21:56:01 593

原创 7.列表(list)、元组(tuple)、字典(dict)、集合

本文介绍了Python中四种核心数据结构:列表、元组、字典和集合。列表(List)是有序可变序列,使用[]定义,支持增删改查;元组(Tuple)是有序不可变序列,使用()定义,创建后不可修改;字典(Dict)是无序键值对集合,用{}定义,通过键访问值;集合(Set)是无序不重复元素集,用{}或set()定义,常用于去重和集合运算。文章详细说明了每种结构的创建方式、基本操作和典型应用场景,并通过对比表格总结了它们的关键特性差异。这些数据结构是Python编程的基础组成部分,掌握它们对数据处理至关重要。

2026-02-09 21:06:57 992

原创 8.python基础-函数

函数是可重复使用的代码块,通过参数接收输入并返回结果。使用函数可实现代码复用、模块化和隐藏实现细节。定义函数使用def关键字,通过位置参数、默认参数或可变参数传递数据。return语句返回结果,未指定时默认返回None。变量作用域分为局部和全局,修改全局变量需用global声明。函数文档用三引号字符串说明用途。综合示例展示了包含参数检查、返回值和异常处理的完整函数实现。

2026-02-09 20:04:04 404

原创 9-1Python魔术方法完全指南:从基础到高级应用

self.x = xself.y = y保持一致性:重载运算符时要保持数学上的语义一致性异常处理:在魔术方法中适当处理异常情况性能考虑:避免在频繁调用的魔术方法中执行复杂操作文档注释:为自定义的魔术方法提供清晰的文档说明测试覆盖:确保所有魔术方法都有充分的测试用例魔术方法是Python面向对象编程的强大特性,它们使得自定义类能够与Python语言本身无缝集成。通过合理使用这些方法,你可以创建出行为自然、接口友好的类,大大提升代码的可读性和易用性。

2026-02-09 17:59:08 344

原创 10.面向对象之封装继承多态

本文介绍了面向对象编程(OOP)的三大核心特性:封装、继承和多态。封装通过隐藏对象内部细节,使用访问修饰符保护数据安全;继承允许子类复用父类代码,支持单继承和多继承;多态使不同对象对相同方法调用产生不同行为。文章通过Python代码示例展示了这些特性的实现方式及其优势,如提高代码安全性、可维护性和复用性。最后通过汽车类实例演示了三大特性的综合应用。

2026-02-09 17:41:15 627

原创 9.Python面向对象 -类和对象

面向对象编程(OOP)是一种以对象为核心的编程范式,将数据和操作封装在对象中。核心概念包括:类(对象模板)、对象(类实例)、封装(隐藏内部细节)、继承(子类继承父类特性)和多态(不同对象对同一方法的不同响应)。通过动物类示例展示了如何定义基类Animal,并创建子类Cat和Dog,每个子类实现特定的make_sound方法。文章还介绍了实例属性与类属性、实例方法与类方法的区别,以及如何使用__init__构造函数初始化对象属性。OOP通过类和对象的关系,实现了代码的模块化、重用性和灵活性。

2026-02-09 17:17:45 1334

原创 12.Python异常

本文全面介绍了Python异常处理的核心机制和最佳实践。首先列举了常见的异常类型,包括基础运算异常、类型与值异常、容器与系统异常以及文件操作异常。详细讲解了基础异常处理语法,包括try-except结构、多异常捕获以及完整的异常处理流程(else和finally子句)。文章还介绍了高级技巧如异常的捕获和重新抛出、获取异常信息,并提供了文件操作、网络请求和数据库操作的实际应用场景。最后讲解了自定义异常类的创建和使用,总结了精确捕获异常、提供有用错误信息、资源清理等最佳实践,帮助开发者编写更健壮的Python代

2026-02-08 22:05:37 186

原创 11.Python文件操作

本文详细介绍了Python文件操作的核心知识点,包括文件打开/关闭、读写操作及相关文件管理功能。重点讲解了with语句的安全文件操作方式,不同访问模式的区别,以及read()、readline()和readlines()三种读取方法的差异。同时提供了文件重命名、删除、创建等实用操作的代码示例,并展示了两个实际应用场景:文本文件格式清洗和批量文件重命名。通过具体代码演示了如何利用os和re模块进行高效的文件处理,特别强调了异常处理的重要性。这些内容为Python文件操作提供了全面实用的指导。

2026-02-08 21:42:45 942

原创 二十一、基于 Hugging Face Transformers 实现中文情感分析情感分析

本文基于HuggingFace生态实现中文情感分析模型的训练与评估。采用哈工大RoBERTa预训练模型,通过Datasets库加载CSV格式数据集,使用Trainer进行模型微调。核心流程包括:数据预处理(分词、截断、填充)、模型配置(二分类任务)、训练参数设置(批次大小4、1个epoch)、评估指标计算(准确率、F1分数)。测试阶段实现无梯度推理,结果显示模型在示例数据上达到100%准确率。文章还提出优化方向,如扩充数据集、调整超参数、尝试不同预训练模型等。完整代码提供训练(train_model.py)

2026-02-01 10:40:03 936

原创 二十、使用PyTorch和Hugging Face Transformers训练中文GPT-2模型的技术实践

本文详细介绍了基于GPT2模型的中文诗歌生成训练全流程。首先通过自定义Dataset类加载和清洗诗歌文本数据,然后使用HuggingFace Transformers库加载GPT2预训练模型和分词器。重点讲解了批量数据处理函数collate_fn的实现,以及包含梯度裁剪、学习率调度等优化技术的训练流程搭建。文章还提供了训练指标监控、模型保存等核心代码实现,并对训练过程中的关键参数设置和优化方向进行了深入分析。该框架具有良好的扩展性,可应用于各类中文文本生成任务。

2026-02-01 10:10:35 1061

原创 十九、基于轻量级 GPT2-Distil 中文模型实现文本续写:从代码到实战

本文介绍了轻量级GPT2中文模型gpt2-distil-chinese-cluecorpussmall的使用方法,该模型具有体积小、速度快、适配中文等优势。文章详细讲解了从环境准备到代码实现的完整流程,包括模型加载、分词器配置、文本生成参数优化等关键步骤。重点分析了max_new_tokens、temperature等核心参数的作用及调优技巧,并提供了批量续写和风格定制的拓展应用示例。该轻量级模型特别适合新手入门和本地低配环境部署,可用于日常中文文本续写等场景。通过本文指导,读者可以快速掌握使用Transf

2026-02-01 09:28:11 475

原创 十八、基于 Transformers 库调用 GPT2 中文诗歌模型实现文本续写实战

本文介绍了如何使用HuggingFace的Transformers库实现中文诗歌文本续写。首先需要配置开发环境并下载GPT2中文诗歌模型。核心步骤包括:加载BertTokenizer分词器和GPT2LMHeadModel模型,创建TextGenerationPipeline文本生成管道,配置关键参数如max_new_tokens、temperature等控制续写长度和创造性。通过调整这些参数可以优化诗歌风格,如提高temperature增强想象力或降低值使诗歌更规整。该方法为新手提供了AI文本创作的入门实践

2026-02-01 09:21:28 615

原创 十七、用 GPT2 中文对联模型实现经典上联自动对下联:

本文介绍了基于GPT2中文对联模型实现自动对联生成的技术方法。通过分析GPT2-chinese-couplet模型的代码实现,详细讲解了从环境配置、模型加载到对联生成的全流程。该模型在海量对联语料上微调,能够理解对联的"对仗工整、平仄协调、意境相符"规则。以"青山不墨千秋画"为例,展示了如何通过调整温度参数、采样范围等关键参数生成"绿水无弦万古琴"这样符合传统对联要求的工整下联。文章还提供了GPU加速、结果解析等优化建议,并探讨了该技术在春联生成、

2026-01-31 20:45:41 1023

原创 十六、用 GPT2 中文古文模型实现经典名句续写

本文介绍了基于GPT2中文古文模型实现经典名句自动续写的方法。通过微调《论语》《诗经》等古籍语料的gpt2-chinese-ancient模型,AI能够理解古文的语义逻辑和语言风格。文章详细讲解了环境准备、核心代码实现及参数调优技巧,如设置temperature=0.6控制随机性、top_k=30保证用词准确性等优化策略。典型输出示例展示了模型能生成符合儒家语境、句式工整的续写内容。该方法可扩展应用于古诗创作、国学教学等场景,为传统文化与AI融合提供实践方案。

2026-01-31 20:29:31 798

原创 十五、基于 GPT2 中文模型实现歌词自动续写

本文介绍了如何利用GPT2中文歌词生成模型实现文本自动续写功能。首先分析了GPT2模型的因果语言特性及其在中文文本生成中的优势,然后详细讲解了环境配置、模型加载和核心代码实现过程。文章重点解析了TextGenerationPipeline的使用方法,并提供了参数调优、GPU加速等优化技巧,以提升生成质量和效率。最后探讨了该技术在歌词创作、诗歌生成等场景的扩展应用,展示了GPT2作为轻量化中文文本生成解决方案的实用性。

2026-01-31 20:15:35 752

原创 十四、基于 BERT 的微博评论情感分析模型训练实践

本文提出了一种基于BERT预训练模型的微博评论情感分析方法,实现了8类情感(喜欢、厌恶、开心、悲伤、愤怒、惊讶、恐惧、无情感)的自动分类。系统采用BERT-base-chinese作为基础模型,通过PyTorch框架构建分类网络,利用CLS token特征进行情感预测。实验使用50,000条微博评论数据,详细介绍了数据预处理、模型训练、验证测试等完整流程。该方法在测试集上取得了较好的分类效果,同时文章还探讨了样本不均衡处理、超参数调优等改进方向,为社交媒体情感分析任务提供了可行的技术方案。

2026-01-31 19:20:06 882

原创 十三.调用 BERT 中文文本情感分析交互式推理模型训练好的

本文详细介绍了基于中文BERT预训练模型(bert-base-chinese)的文本情感分类交互式推理工具实现方法。主要内容包括: 工具功能:实现实时输入中文评论文本,即时输出正向/负向情感分类结果,支持持续交互直至输入"q"退出。 核心实现: 单样本文本编码处理,确保与训练阶段格式一致 模型权重加载与推理模式切换 GPU加速推理与CPU兼容方案 情感标签直观映射展示 关键技术点: 禁用梯度计算提升推理效率 设备一致性保证 编码规则与训练阶段严格匹配 异常处理与错误排查 该工具可直接验证

2026-01-31 18:57:12 526

原创 十二、基于 BERT 的中文文本二分类模型测试实战:从数据加载到准确率评估

摘要:本文详细介绍了基于BERT的中文文本二分类模型测试全流程,包括测试集加载、批量数据处理、模型推理和准确率计算。通过PyTorch框架实现,优先使用GPU加速计算,确保测试设备与训练一致。关键步骤包括:加载BERT分词器处理测试文本、自定义批量数据处理函数、实例化模型并加载训练权重、切换至推理模式、批量遍历测试集计算准确率。文章特别强调了测试阶段与训练阶段参数的一致性要求,如max_length、batch_size等,并提供了代码优化建议,包括禁用梯度计算、异常处理、模块化封装等,提升测试效率和代码健

2026-01-31 18:33:04 947

原创 十一、基于 BERT 的中文文本情感分类模型训练全解析

本文详细介绍了基于BERT的中文文本情感分类模型训练全流程,采用模块化设计分为数据加载、模型构建和训练执行三个核心模块。通过ChnSentiCorp数据集,实现了从文本预处理到模型训练的完整闭环。文中重点解析了BERT模型的特征提取机制、PyTorch数据加载规范、以及"冻结预训练层+微调分类头"的训练策略。该方法在保证分类精度的同时降低了训练成本,适合小规模NLP任务落地。文章还提供了优化方向建议,如解冻部分BERT层、早停策略等,为后续模型改进提供参考。整套代码注释详尽,可作为NLP

2026-01-30 12:17:37 1619

原创 十、Dataset数据集使用及操作

本文介绍了使用HuggingFace的datasets库进行数据加载和预处理的方法。主要内容包括:1)通过load_dataset加载CSV格式数据集;2)使用Dataset.from_dict创建自定义数据集;3)数据遍历和处理的实例演示;4)自定义数据集类的实现及其优势。文章详细讲解了核心方法__init__()、len()和__getitem__()的功能,展示了如何将数据加载、预处理逻辑封装成统一接口,便于与PyTorch的DataLoader集成。这些方法为自然语言处理任务提供了高效便捷的数据准备

2026-01-30 08:44:40 281

原创 九、模型微调的基本概念与流程

本文介绍了模型微调技术在预训练模型中的应用。微调通过在预训练模型基础上使用特定任务数据进行额外训练,实现知识迁移和任务适配。文章详细阐述了微调流程,包括模型选择、数据准备、架构适配、训练策略和评估优化等步骤,并以BERT情感分析为例展示了实践案例。同时分析了常见问题及解决方案,探讨了参数高效微调等进阶技术。微调作为连接通用模型与具体任务的关键技术,能充分利用预训练模型能力,快速构建高性能AI应用系统。

2026-01-29 17:43:10 985

原创 八.vocab字典操作

动态扩展BERT分词器的词汇表是一项实用且重要的技术,能够有效解决实际应用中的词汇覆盖问题。问题根源:预训练模型的词汇表难以覆盖所有应用场景解决方案:使用add_tokens方法动态添加新词应用价值:提升模型对专业术语、新兴词汇的理解能力最佳实践:合理选择添加词汇,注意模型权重调整在实际应用中,建议根据具体需求制定词汇添加策略,平衡模型性能和词汇覆盖范围。通过合理的词汇扩展和模型微调,可以显著提升模型在特定领域的表现。

2026-01-29 12:48:50 517

原创 七.model输出介绍

本文介绍了中文GPT2模型的基本原理与文本生成机制。模型通过分词器将文本转化为数字索引,再经embedding层转换为768维词向量。核心结构包含12层以上的ModuleList计算模块,输出层对应21128个词汇的概率分布。文本生成本质是分类任务,基于概率选择下一个词(如"白"后接"色"或"天")。通过temperature参数(典型值0.7)控制生成随机性,配合top_k机制限制候选词范围。小模型可能因理解能力不足出现重复输出问题,不同模型需使

2026-01-29 12:08:14 518

原创 六 .分词

摘要:gpt2-chinese-cluecorpussmall是基于GPT-2架构的中文语言模型,采用12层Transformer结构,具有12个注意力头和768维隐藏层,最大支持1024个token的上下文处理。其词表(vocab.txt)包含50257个条目,采用字符级分词方式处理中文,通过预留token和子词标记(##)实现灵活组合。模型通过将文本转换为数字索引后,再映射到高维词向量空间,使模型能够理解语义。这种设计既保证了处理效率,又能适应中文的字符级特征,是典型的现代NLP模型实现方式。(148字

2026-01-29 11:38:46 630

原创 五、基于RoBERTa的中文问答系统:从模型加载到推理实战

本文介绍了基于HuggingFace Transformers库和RoBERTa模型构建中文抽取式问答系统的方法。首先概述了抽取式问答任务的特点及应用场景,并分析了RoBERTa模型在NLP任务中的优势。然后详细讲解了环境配置、模型加载、输入处理及推理过程的核心原理,通过科幻文本《科技悟空:赛博西游》的问答案例展示了系统能力。文章还探讨了注意力机制、位置编码等技术细节,提出了批量推理优化、置信度评分等性能提升方案,并展望了问答系统在企业知识库、教育辅导等领域的应用前景。

2026-01-27 22:21:27 426

原创 四、基于LangChain与HuggingFace Pipeline的本地大语言模型对话系统搭建指南(使用阿里千问-模型)

本文介绍了基于LangChain和HuggingFace的本地大语言模型部署方案,以Qwen1.5-0.5B-Chat为例。重点包括:1)环境配置与模型加载,支持GPU/CPU自动分配;2)构建文本生成Pipeline,详细解析温度值、top_k等关键参数;3)LangChain集成实现多轮对话管理;4)性能优化策略如混合精度推理和量化技术。该方案具有数据安全、成本可控等优势,适用于客服系统、教育助手等场景,为垂直领域提供可靠的本地化AI解决方案。

2026-01-27 22:15:09 716

原创 三、HuggingFace核心组件-transformers 库使用

本文介绍了基于Hugging Face Transformers库的文本生成和分类实现。在文本生成方面,通过GPT2-chinese模型实现文本续写,详细说明了pipeline参数配置(如max_new_tokens、temperature等)对生成效果的影响。在文本分类方面,使用BERT-base-chinese模型进行情感分析,并指出预训练模型需微调分类头才能有效预测。文章还阐述了关键概念如因果语言模型原理、分词器作用,并提供了智能对话、文本续写等应用场景示例,最后给出不同任务类型的参数调优建议。

2026-01-27 22:04:15 540

原创 二、HuggingFace模型探索与库下载

本文介绍了HuggingFace Transformers库的使用方法,包括安装命令、核心功能说明,以及如何下载和加载预训练模型。重点解析了2017年Google发表的里程碑论文《Attention Is All You Need》,详细介绍了Transformer架构的创新点:完全基于注意力机制、并行计算等特性。同时提供了模型下载和API调用的具体代码示例,包括通过镜像站下载模型的方法,适合国内开发者使用。文章涵盖了从基础安装到实际应用的全流程指南。

2026-01-27 10:08:47 794

原创 一、Hugging Face介绍

HuggingFace是全球最大的AI开源平台,被誉为"AI界的GitHub",提供各类开源模型和数据集,涵盖NLP、语音识别、图像处理等领域。平台支持免费调用接口,但需通过镜像站(hf-mirror.com)或阿里ModelScope访问。以Stable Diffusion 3.5模型为例,可通过HuggingFace或ModelScope下载使用,需配备6GB以上GPU进行本地训练。平台核心使命是让普通开发者也能使用最先进的AI技术。

2026-01-26 18:02:01 898

原创 llama-index Embedding 落地到 RAG 系统

本文介绍了如何将Embedding技术落地到RAG(检索增强生成)系统中,实现从文本向量化到智能问答的全流程。通过LlamaIndex+阿里云千问大模型+Qdrant向量库的完整示例,展示了本地文档处理、语义检索和智能问答的实现过程。重点包括:1)配置核心组件(Embedding模型、大模型、向量库);2)文本分割与向量化处理;3)构建查询引擎进行问答。文章还提供了常见问题解决方案和优化建议,如维度匹配、API限流处理、效果提升等,为中文NLP应用提供了完整的RAG实现方案。

2026-01-14 16:05:40 308

原创 LlamaIndex(十)Chat技术 基于 LlamaIndex 与千问模型构建定制化对话提示词模板

本文介绍了基于LlamaIndex框架和阿里云千问大模型的提示词工程实践,重点讲解了如何使用ChatPromptTemplate构建结构化对话模板。通过系统角色定义和用户问答模板,结合变量占位符实现动态内容填充,可精准控制模型响应行为。文章详细展示了环境配置、模板设计、调用方法等核心环节,并提供了知识库问答、多角色客服等扩展场景建议,为开发者提供了高效构建定制化对话系统的技术方案。

2026-01-14 16:05:02 688

原创 LlamaIndex(九)Prompt提示词

LlamaIndex中的提示(Prompts)是控制大语言模型输出的关键工具。通过PromptTemplate和ChatPromptTemplate可以创建结构化提示,包含任务描述、输入文本和输出指示。提示词公式通常由角色、任务目标、背景等要素组成,能够限定模型回答范围和格式。文章展示了四种实例:1)基本问答模板应用;2)聊天式提示模板;3)简单笑话生成;4)带角色的上下文问答。这些方法能有效引导模型输出符合特定需求的响应,提升交互质量和准确性。

2026-01-12 10:06:10 978

原创 LlamaIndex(八)使用Qdrant 完成向量存储与检索

本文介绍了基于LlamaIndex框架结合阿里云千问大模型和Qdrant向量数据库构建PDF文档检索系统的完整方案。系统采用千问模型进行文本嵌入和问答生成,通过PyMuPDF解析PDF文档,利用Qdrant实现高效向量检索。详细阐述了从环境配置、文档加载切分、向量索引构建到语义检索的全流程实现,并分析了该方案的轻量化部署、本土化适配等优势。该系统可扩展为完整的RAG问答系统,适用于企业知识库和个人文档管理等场景。

2026-01-12 10:05:47 952

原创 LlamaIndex(七)查询引擎(query_engine)

LlamaIndex中的queryEngine通过index.as_query_engine()方法将索引转换为查询引擎,实现"检索-整合-生成"全流程自动化。开发者无需手动处理检索逻辑,即可通过简单接口完成"输入查询-输出答案"的核心功能。该方法支持多种索引类型(如VectorStoreIndex),封装了从文档片段检索到调用大模型生成回答的完整过程,极大简化了基于私有文档的智能问答系统开发流程。典型应用场景包括企业内部知识库、学术研究辅助和个人知识管理等非公开文档

2026-01-11 09:15:18 1146

原创 llamaindex(六)索引

本文介绍了基于LlamaIndex框架和阿里云百炼text-embedding-v2模型构建多文档向量化索引的完整流程。主要内容包括:1)通过SimpleDirectoryReader读取多格式文档;2)使用VectorStoreIndex.from_documents()方法实现文档分割、向量化和索引构建;3)解析索引结构,包含元数据和1024维向量数据。文章详细讲解了环境配置、代码实现和核心原理,包括文档预处理、SentenceSplitter分割和向量化存储三个关键步骤,帮助开发者快速构建高效的文档检

2026-01-11 09:14:42 974

docker 安装redis

docker 安装redis

2025-11-29

微服务技术(七)Docker(四) 微服务生成jar包

微服务

2024-10-02

springcloudalibaba 简单例子

springcloudalibaba 简单例子

2024-09-20

JDBC例子JDBC例子JDBC例子JDBC例子JDBC例子JDBC例子

JDBC例子JDBC例子JDBC例子JDBC例子JDBC例子JDBC例子JDBC例子JDBC例子

2024-09-13

Web项目(二十五)项目实现代码

代码

2024-09-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除