- 博客(463)
- 收藏
- 关注
原创 二十一、基于 Hugging Face Transformers 实现中文情感分析情感分析
本文基于HuggingFace生态实现中文情感分析模型的训练与评估。采用哈工大RoBERTa预训练模型,通过Datasets库加载CSV格式数据集,使用Trainer进行模型微调。核心流程包括:数据预处理(分词、截断、填充)、模型配置(二分类任务)、训练参数设置(批次大小4、1个epoch)、评估指标计算(准确率、F1分数)。测试阶段实现无梯度推理,结果显示模型在示例数据上达到100%准确率。文章还提出优化方向,如扩充数据集、调整超参数、尝试不同预训练模型等。完整代码提供训练(train_model.py)
2026-02-01 10:40:03
797
原创 二十、使用PyTorch和Hugging Face Transformers训练中文GPT-2模型的技术实践
本文详细介绍了基于GPT2模型的中文诗歌生成训练全流程。首先通过自定义Dataset类加载和清洗诗歌文本数据,然后使用HuggingFace Transformers库加载GPT2预训练模型和分词器。重点讲解了批量数据处理函数collate_fn的实现,以及包含梯度裁剪、学习率调度等优化技术的训练流程搭建。文章还提供了训练指标监控、模型保存等核心代码实现,并对训练过程中的关键参数设置和优化方向进行了深入分析。该框架具有良好的扩展性,可应用于各类中文文本生成任务。
2026-02-01 10:10:35
755
原创 十九、基于轻量级 GPT2-Distil 中文模型实现文本续写:从代码到实战
本文介绍了轻量级GPT2中文模型gpt2-distil-chinese-cluecorpussmall的使用方法,该模型具有体积小、速度快、适配中文等优势。文章详细讲解了从环境准备到代码实现的完整流程,包括模型加载、分词器配置、文本生成参数优化等关键步骤。重点分析了max_new_tokens、temperature等核心参数的作用及调优技巧,并提供了批量续写和风格定制的拓展应用示例。该轻量级模型特别适合新手入门和本地低配环境部署,可用于日常中文文本续写等场景。通过本文指导,读者可以快速掌握使用Transf
2026-02-01 09:28:11
410
原创 十八、基于 Transformers 库调用 GPT2 中文诗歌模型实现文本续写实战
本文介绍了如何使用HuggingFace的Transformers库实现中文诗歌文本续写。首先需要配置开发环境并下载GPT2中文诗歌模型。核心步骤包括:加载BertTokenizer分词器和GPT2LMHeadModel模型,创建TextGenerationPipeline文本生成管道,配置关键参数如max_new_tokens、temperature等控制续写长度和创造性。通过调整这些参数可以优化诗歌风格,如提高temperature增强想象力或降低值使诗歌更规整。该方法为新手提供了AI文本创作的入门实践
2026-02-01 09:21:28
578
原创 十七、用 GPT2 中文对联模型实现经典上联自动对下联:
本文介绍了基于GPT2中文对联模型实现自动对联生成的技术方法。通过分析GPT2-chinese-couplet模型的代码实现,详细讲解了从环境配置、模型加载到对联生成的全流程。该模型在海量对联语料上微调,能够理解对联的"对仗工整、平仄协调、意境相符"规则。以"青山不墨千秋画"为例,展示了如何通过调整温度参数、采样范围等关键参数生成"绿水无弦万古琴"这样符合传统对联要求的工整下联。文章还提供了GPU加速、结果解析等优化建议,并探讨了该技术在春联生成、
2026-01-31 20:45:41
940
原创 十六、用 GPT2 中文古文模型实现经典名句续写
本文介绍了基于GPT2中文古文模型实现经典名句自动续写的方法。通过微调《论语》《诗经》等古籍语料的gpt2-chinese-ancient模型,AI能够理解古文的语义逻辑和语言风格。文章详细讲解了环境准备、核心代码实现及参数调优技巧,如设置temperature=0.6控制随机性、top_k=30保证用词准确性等优化策略。典型输出示例展示了模型能生成符合儒家语境、句式工整的续写内容。该方法可扩展应用于古诗创作、国学教学等场景,为传统文化与AI融合提供实践方案。
2026-01-31 20:29:31
738
原创 十五、基于 GPT2 中文模型实现歌词自动续写
本文介绍了如何利用GPT2中文歌词生成模型实现文本自动续写功能。首先分析了GPT2模型的因果语言特性及其在中文文本生成中的优势,然后详细讲解了环境配置、模型加载和核心代码实现过程。文章重点解析了TextGenerationPipeline的使用方法,并提供了参数调优、GPU加速等优化技巧,以提升生成质量和效率。最后探讨了该技术在歌词创作、诗歌生成等场景的扩展应用,展示了GPT2作为轻量化中文文本生成解决方案的实用性。
2026-01-31 20:15:35
703
原创 十四、基于 BERT 的微博评论情感分析模型训练实践
本文提出了一种基于BERT预训练模型的微博评论情感分析方法,实现了8类情感(喜欢、厌恶、开心、悲伤、愤怒、惊讶、恐惧、无情感)的自动分类。系统采用BERT-base-chinese作为基础模型,通过PyTorch框架构建分类网络,利用CLS token特征进行情感预测。实验使用50,000条微博评论数据,详细介绍了数据预处理、模型训练、验证测试等完整流程。该方法在测试集上取得了较好的分类效果,同时文章还探讨了样本不均衡处理、超参数调优等改进方向,为社交媒体情感分析任务提供了可行的技术方案。
2026-01-31 19:20:06
693
原创 十三.调用 BERT 中文文本情感分析交互式推理模型训练好的
本文详细介绍了基于中文BERT预训练模型(bert-base-chinese)的文本情感分类交互式推理工具实现方法。主要内容包括: 工具功能:实现实时输入中文评论文本,即时输出正向/负向情感分类结果,支持持续交互直至输入"q"退出。 核心实现: 单样本文本编码处理,确保与训练阶段格式一致 模型权重加载与推理模式切换 GPU加速推理与CPU兼容方案 情感标签直观映射展示 关键技术点: 禁用梯度计算提升推理效率 设备一致性保证 编码规则与训练阶段严格匹配 异常处理与错误排查 该工具可直接验证
2026-01-31 18:57:12
481
原创 十二、基于 BERT 的中文文本二分类模型测试实战:从数据加载到准确率评估
摘要:本文详细介绍了基于BERT的中文文本二分类模型测试全流程,包括测试集加载、批量数据处理、模型推理和准确率计算。通过PyTorch框架实现,优先使用GPU加速计算,确保测试设备与训练一致。关键步骤包括:加载BERT分词器处理测试文本、自定义批量数据处理函数、实例化模型并加载训练权重、切换至推理模式、批量遍历测试集计算准确率。文章特别强调了测试阶段与训练阶段参数的一致性要求,如max_length、batch_size等,并提供了代码优化建议,包括禁用梯度计算、异常处理、模块化封装等,提升测试效率和代码健
2026-01-31 18:33:04
882
原创 十一、基于 BERT 的中文文本情感分类模型训练全解析
本文详细介绍了基于BERT的中文文本情感分类模型训练全流程,采用模块化设计分为数据加载、模型构建和训练执行三个核心模块。通过ChnSentiCorp数据集,实现了从文本预处理到模型训练的完整闭环。文中重点解析了BERT模型的特征提取机制、PyTorch数据加载规范、以及"冻结预训练层+微调分类头"的训练策略。该方法在保证分类精度的同时降低了训练成本,适合小规模NLP任务落地。文章还提供了优化方向建议,如解冻部分BERT层、早停策略等,为后续模型改进提供参考。整套代码注释详尽,可作为NLP
2026-01-30 12:17:37
1498
原创 十、Dataset数据集使用及操作
本文介绍了使用HuggingFace的datasets库进行数据加载和预处理的方法。主要内容包括:1)通过load_dataset加载CSV格式数据集;2)使用Dataset.from_dict创建自定义数据集;3)数据遍历和处理的实例演示;4)自定义数据集类的实现及其优势。文章详细讲解了核心方法__init__()、len()和__getitem__()的功能,展示了如何将数据加载、预处理逻辑封装成统一接口,便于与PyTorch的DataLoader集成。这些方法为自然语言处理任务提供了高效便捷的数据准备
2026-01-30 08:44:40
218
原创 九、模型微调的基本概念与流程
本文介绍了模型微调技术在预训练模型中的应用。微调通过在预训练模型基础上使用特定任务数据进行额外训练,实现知识迁移和任务适配。文章详细阐述了微调流程,包括模型选择、数据准备、架构适配、训练策略和评估优化等步骤,并以BERT情感分析为例展示了实践案例。同时分析了常见问题及解决方案,探讨了参数高效微调等进阶技术。微调作为连接通用模型与具体任务的关键技术,能充分利用预训练模型能力,快速构建高性能AI应用系统。
2026-01-29 17:43:10
949
原创 八.vocab字典操作
动态扩展BERT分词器的词汇表是一项实用且重要的技术,能够有效解决实际应用中的词汇覆盖问题。问题根源:预训练模型的词汇表难以覆盖所有应用场景解决方案:使用add_tokens方法动态添加新词应用价值:提升模型对专业术语、新兴词汇的理解能力最佳实践:合理选择添加词汇,注意模型权重调整在实际应用中,建议根据具体需求制定词汇添加策略,平衡模型性能和词汇覆盖范围。通过合理的词汇扩展和模型微调,可以显著提升模型在特定领域的表现。
2026-01-29 12:48:50
472
原创 七.model输出介绍
本文介绍了中文GPT2模型的基本原理与文本生成机制。模型通过分词器将文本转化为数字索引,再经embedding层转换为768维词向量。核心结构包含12层以上的ModuleList计算模块,输出层对应21128个词汇的概率分布。文本生成本质是分类任务,基于概率选择下一个词(如"白"后接"色"或"天")。通过temperature参数(典型值0.7)控制生成随机性,配合top_k机制限制候选词范围。小模型可能因理解能力不足出现重复输出问题,不同模型需使
2026-01-29 12:08:14
498
原创 六 .分词
摘要:gpt2-chinese-cluecorpussmall是基于GPT-2架构的中文语言模型,采用12层Transformer结构,具有12个注意力头和768维隐藏层,最大支持1024个token的上下文处理。其词表(vocab.txt)包含50257个条目,采用字符级分词方式处理中文,通过预留token和子词标记(##)实现灵活组合。模型通过将文本转换为数字索引后,再映射到高维词向量空间,使模型能够理解语义。这种设计既保证了处理效率,又能适应中文的字符级特征,是典型的现代NLP模型实现方式。(148字
2026-01-29 11:38:46
575
原创 五、基于RoBERTa的中文问答系统:从模型加载到推理实战
本文介绍了基于HuggingFace Transformers库和RoBERTa模型构建中文抽取式问答系统的方法。首先概述了抽取式问答任务的特点及应用场景,并分析了RoBERTa模型在NLP任务中的优势。然后详细讲解了环境配置、模型加载、输入处理及推理过程的核心原理,通过科幻文本《科技悟空:赛博西游》的问答案例展示了系统能力。文章还探讨了注意力机制、位置编码等技术细节,提出了批量推理优化、置信度评分等性能提升方案,并展望了问答系统在企业知识库、教育辅导等领域的应用前景。
2026-01-27 22:21:27
381
原创 四、基于LangChain与HuggingFace Pipeline的本地大语言模型对话系统搭建指南(使用阿里千问-模型)
本文介绍了基于LangChain和HuggingFace的本地大语言模型部署方案,以Qwen1.5-0.5B-Chat为例。重点包括:1)环境配置与模型加载,支持GPU/CPU自动分配;2)构建文本生成Pipeline,详细解析温度值、top_k等关键参数;3)LangChain集成实现多轮对话管理;4)性能优化策略如混合精度推理和量化技术。该方案具有数据安全、成本可控等优势,适用于客服系统、教育助手等场景,为垂直领域提供可靠的本地化AI解决方案。
2026-01-27 22:15:09
612
原创 三、HuggingFace核心组件-transformers 库使用
本文介绍了基于Hugging Face Transformers库的文本生成和分类实现。在文本生成方面,通过GPT2-chinese模型实现文本续写,详细说明了pipeline参数配置(如max_new_tokens、temperature等)对生成效果的影响。在文本分类方面,使用BERT-base-chinese模型进行情感分析,并指出预训练模型需微调分类头才能有效预测。文章还阐述了关键概念如因果语言模型原理、分词器作用,并提供了智能对话、文本续写等应用场景示例,最后给出不同任务类型的参数调优建议。
2026-01-27 22:04:15
483
原创 二、HuggingFace模型探索与库下载
本文介绍了HuggingFace Transformers库的使用方法,包括安装命令、核心功能说明,以及如何下载和加载预训练模型。重点解析了2017年Google发表的里程碑论文《Attention Is All You Need》,详细介绍了Transformer架构的创新点:完全基于注意力机制、并行计算等特性。同时提供了模型下载和API调用的具体代码示例,包括通过镜像站下载模型的方法,适合国内开发者使用。文章涵盖了从基础安装到实际应用的全流程指南。
2026-01-27 10:08:47
663
原创 一、Hugging Face介绍
HuggingFace是全球最大的AI开源平台,被誉为"AI界的GitHub",提供各类开源模型和数据集,涵盖NLP、语音识别、图像处理等领域。平台支持免费调用接口,但需通过镜像站(hf-mirror.com)或阿里ModelScope访问。以Stable Diffusion 3.5模型为例,可通过HuggingFace或ModelScope下载使用,需配备6GB以上GPU进行本地训练。平台核心使命是让普通开发者也能使用最先进的AI技术。
2026-01-26 18:02:01
541
原创 llama-index Embedding 落地到 RAG 系统
本文介绍了如何将Embedding技术落地到RAG(检索增强生成)系统中,实现从文本向量化到智能问答的全流程。通过LlamaIndex+阿里云千问大模型+Qdrant向量库的完整示例,展示了本地文档处理、语义检索和智能问答的实现过程。重点包括:1)配置核心组件(Embedding模型、大模型、向量库);2)文本分割与向量化处理;3)构建查询引擎进行问答。文章还提供了常见问题解决方案和优化建议,如维度匹配、API限流处理、效果提升等,为中文NLP应用提供了完整的RAG实现方案。
2026-01-14 16:05:40
259
原创 LlamaIndex(十)Chat技术 基于 LlamaIndex 与千问模型构建定制化对话提示词模板
本文介绍了基于LlamaIndex框架和阿里云千问大模型的提示词工程实践,重点讲解了如何使用ChatPromptTemplate构建结构化对话模板。通过系统角色定义和用户问答模板,结合变量占位符实现动态内容填充,可精准控制模型响应行为。文章详细展示了环境配置、模板设计、调用方法等核心环节,并提供了知识库问答、多角色客服等扩展场景建议,为开发者提供了高效构建定制化对话系统的技术方案。
2026-01-14 16:05:02
624
原创 LlamaIndex(九)Prompt提示词
LlamaIndex中的提示(Prompts)是控制大语言模型输出的关键工具。通过PromptTemplate和ChatPromptTemplate可以创建结构化提示,包含任务描述、输入文本和输出指示。提示词公式通常由角色、任务目标、背景等要素组成,能够限定模型回答范围和格式。文章展示了四种实例:1)基本问答模板应用;2)聊天式提示模板;3)简单笑话生成;4)带角色的上下文问答。这些方法能有效引导模型输出符合特定需求的响应,提升交互质量和准确性。
2026-01-12 10:06:10
935
原创 LlamaIndex(八)使用Qdrant 完成向量存储与检索
本文介绍了基于LlamaIndex框架结合阿里云千问大模型和Qdrant向量数据库构建PDF文档检索系统的完整方案。系统采用千问模型进行文本嵌入和问答生成,通过PyMuPDF解析PDF文档,利用Qdrant实现高效向量检索。详细阐述了从环境配置、文档加载切分、向量索引构建到语义检索的全流程实现,并分析了该方案的轻量化部署、本土化适配等优势。该系统可扩展为完整的RAG问答系统,适用于企业知识库和个人文档管理等场景。
2026-01-12 10:05:47
858
原创 LlamaIndex(七)查询引擎(query_engine)
LlamaIndex中的queryEngine通过index.as_query_engine()方法将索引转换为查询引擎,实现"检索-整合-生成"全流程自动化。开发者无需手动处理检索逻辑,即可通过简单接口完成"输入查询-输出答案"的核心功能。该方法支持多种索引类型(如VectorStoreIndex),封装了从文档片段检索到调用大模型生成回答的完整过程,极大简化了基于私有文档的智能问答系统开发流程。典型应用场景包括企业内部知识库、学术研究辅助和个人知识管理等非公开文档
2026-01-11 09:15:18
1089
原创 llamaindex(六)索引
本文介绍了基于LlamaIndex框架和阿里云百炼text-embedding-v2模型构建多文档向量化索引的完整流程。主要内容包括:1)通过SimpleDirectoryReader读取多格式文档;2)使用VectorStoreIndex.from_documents()方法实现文档分割、向量化和索引构建;3)解析索引结构,包含元数据和1024维向量数据。文章详细讲解了环境配置、代码实现和核心原理,包括文档预处理、SentenceSplitter分割和向量化存储三个关键步骤,帮助开发者快速构建高效的文档检
2026-01-11 09:14:42
908
原创 LlamaIndex (五)Embedding
本文介绍了基于阿里云百炼text-embedding-v2模型和LlamaIndex框架的文本向量化实现方法。通过代码示例详细解析了环境配置、API密钥管理、模型初始化及批量文本向量化流程。该模型输出1024维稠密向量,支持中英文文本,语义相近的文本在向量空间中距离更近。文章还对比了单条与批量向量化方法的适用场景,并说明了关键参数配置,为构建RAG系统、实现语义检索等NLP任务提供了实用解决方案。
2026-01-10 09:57:54
916
原创 LlamaIndex (四)分割器 TextSplitter
LlamaIndex提供多种TextSplitter优化RAG系统的文本分割效果,包括: SentenceSplitter(通用首选):基于语义边界分割,适合中文/混合文本 TokenTextSplitter(精准适配):按Token数分割,适合英文/模型限制场景 CodeSplitter(代码专属):按语法结构分割,保留代码逻辑完整性 特殊场景分割器:如Markdown/HTML/SemanticSplitter 选择指南: 中文文档用SentenceSplitter(300-500字符) 英文长文本用T
2026-01-10 09:57:13
980
原创 LlamaIndex(三) LlamaHub工具集
LlamaHub是一个连接大型语言模型(LLM)与多种数据源的生态系统,提供丰富的开源数据连接器。这些连接器支持PDF、Word、Excel、HTML等多种文件格式,以及SQL数据库等数据源,可轻松集成到LlamaIndex应用中。通过SimpleDirectoryReader和特定文件解析器(如PDFReader、DocxReader等),开发者可以方便地加载和处理各类数据。LlamaHub还包含Google Calendar工具、数据集等组件,支持构建RAG应用和数据代理,简化了LLM与外部数据的集成流
2026-01-09 20:20:55
389
原创 LlamaIndex(二)加载本地数据
本文介绍了使用LlamaIndex进行数据处理的主要流程,重点讲解了数据加载阶段的操作方法。首先概述了数据处理管道的三个阶段:加载、转换、索引/存储。然后详细说明了如何使用SimpleDirectoryReader从不同格式的文件(如PDF、Word、图片等)加载数据,包括参数设置、并行处理和特殊编码处理。文章还介绍了LlamaHub中的其他读取器,如DatabaseReader,以及Document对象的核心属性和使用方法。通过代码示例展示了如何从不同数据源加载数据并转换为标准Document格式,为后续
2026-01-09 19:16:51
853
原创 LlamaIndex(一)初见
LlamaIndex是一个专为构建基于大语言模型(LLM)的数据应用而设计的框架,支持开发者创建与私有数据交互的AI应用。核心功能包括数据连接(支持PDF、SQL等多种格式)、文本向量化索引、模型引擎集成以及应用整合。该框架提供从简单5行代码实现基础功能到企业级解决方案的全套工具链,特别适合实现RAG(检索增强生成)应用。主要优势在于易用性、灵活性和生产就绪性,支持初学者快速上手,同时满足进阶用户的定制需求和企业级部署要求。
2026-01-09 18:34:46
449
原创 RAG(七)基于 LangChain + 通义千问构建本地化文档问答系统
本文介绍如何使用LangChain框架和阿里云通义千问大模型构建本地化Word文档智能问答系统。系统通过Docx2txtLoader加载文档,RecursiveCharacterTextSplitter进行文本切分,DashScopeEmbeddings生成向量,并存入Chroma向量数据库实现相似度检索。问答链结合检索结果和提示词约束,调用通义千问模型生成精准答案。方案支持扩展多格式文档,可应用于企业知识库、政策解读等场景,提供安全高效的文档问答能力。
2026-01-08 10:47:10
825
原创 Langchain(十二)LangGraph 实战入门:用流程图思维构建 LLM 工作流
摘要: LangChain团队于2025年10月发布LangChain 1.0和LangGraph 1.0,标志着AI智能体开发框架进入成熟阶段。LangGraph作为核心组件,通过“节点-连线-状态”的可视化流程解决传统大语言模型应用的线性调用局限,支持多步骤任务、分支决策和状态持久化。本文以“推荐作家+生成风格化笑话”为例,详细讲解LangGraph的核心概念与开发流程,包括State(状态管理)、Node(任务节点)和Edge(流程连线)的实现,并演示如何通过条件分支和循环逻辑扩展复杂应用。LangG
2026-01-07 15:58:41
737
原创 Langchain(十一)tools 使用案例详解
本文通过三个案例详细介绍了如何利用LangChain框架扩展大语言模型(LLM)的功能,使其具备调用外部工具的能力。案例一展示了基本的天气查询工具实现;案例二演示了网络搜索工具集成;案例三则完整实现了"天气查询+本地文件写入"的复合功能。文章重点讲解了@tool装饰器的使用、工具文档字符串规范、异常处理、Agent配置等核心知识点,并提供了生产环境优化建议。通过灵活组合自定义工具,开发者可以赋予LLM执行实际业务操作的能力,如API调用、文件操作等,从而构建更智能的AI助手应用。
2026-01-07 15:23:56
816
原创 langchain (十):Agent 调用外部工具(Tools)
摘要:LangChain框架中的Tools(工具)让大语言模型能够调用外部函数执行特定任务。本文详细介绍了如何通过Agent机制实现模型自动决策调用工具,以通义千问+Tavily搜索为例,展示了完整实现流程。核心内容包括:工具调用原理、环境配置、代码实现(模型初始化、工具绑定、Agent创建)、以及扩展优化建议。通过自定义@tool装饰器和Pydantic参数控制,开发者可以灵活创建各类工具,使大模型突破知识局限,具备实时信息获取和特定计算能力。
2026-01-07 14:28:01
1065
原创 Langchain(九)create_agent详解
LangChain 1.0引入全新create_agent() API,将Agent升级为具备上下文感知和决策能力的智能运行体。该API通过统一架构将语言模型与工具集结合,支持复杂任务的推理与执行。基于LangGraph的底层架构提供了结构化执行、状态管理和深度定制能力,显著提升了生产环境的可靠性。相较于早期分散的代理类型,create_agent()实现了统一调用方式,简化了开发流程。示例展示了如何通过该API快速构建基于阿里云通义千问模型的个性化Agent,包括环境配置、LLM初始化和系统提示词设置等核
2026-01-07 10:34:24
863
原创 RAG(六) 文本分割器的使用
摘要:本文讨论了在RAG应用中处理长文档的关键步骤——文本分割。由于大语言模型的上下文窗口有限,需要将Document对象分割成更小的语义块(chunks)。文本分割器(TextSplitters)通过设置chunk_size和chunk_overlap参数,在保持语义连贯性的同时分割文档。这种处理既能适应模型限制,又能提升检索效率和质量,避免因文档过长导致的信息丢失或回答质量下降。LangChain提供了多种文本分割器来实现这一功能。
2026-01-06 20:38:36
763
原创 RAG(五) 向量存储检索器(Retriever)的使用
本文详细解析了LangChain框架中向量存储检索器(Retriever)在RAG问答系统中的核心作用与配置方法。Retriever作为连接向量数据库与大语言模型的关键组件,通过语义匹配从海量文档中检索相关信息,为LLM提供精准上下文。文章重点介绍了基于FAISS向量库的Retriever配置方式,包括search_type(相似度检索/阈值检索/MMR检索)和search_kwargs(相似度阈值、返回数量等参数)的设置技巧。通过实战代码演示了Retriever在完整RAG流程中的应用,并给出相似度阈值调
2026-01-06 18:39:11
467
原创 RAG(四) LangChain 使用PyPDFLoader加载 PDF 并实现内容总结功能
本文详细介绍了PyPDFLoader在LangChain中的使用方法。PyPDFLoader是处理PDF文档的核心工具,支持本地和远程PDF加载,提供load()、load_and_split()和lazy_load()三种加载方式,返回包含文本内容和元数据的Document对象。文章还展示了如何指定页码范围加载内容,并给出了结合DeepSeek大模型实现PDF内容总结的完整代码示例,包括环境配置、提示词模板设置、模型调用等关键步骤。这套方法适用于需要处理和分析PDF文档的大模型应用开发场景。
2026-01-06 17:57:52
452
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅