- 博客(330)
- 资源 (3)
- 收藏
- 关注
原创 多模态大模型开发实战 -- Deepseek-OCR
DeepSeek-OCR以“上下文光学压缩”的理论创新为基石,以轻量部署、高精度解析、全场景适配为核心优势,打破了传统OCR与通用VLM之间的能力鸿沟。它不仅是一款OCR工具,更是多模态时代连接视觉信息与文本知识的关键桥梁,为科研创新、企业数字化转型、个人高效办公提供了强大动力。随着多模态RAG技术的普及,DeepSeek-OCR正成为文档理解领域的“标配引擎”,推动数字化处理迈入“精准理解”的新阶段。
2025-11-28 17:21:12
803
原创 41、Dify学习(二)-- D文本应用开发实战指南
结合学术研究中的实际需求,我们搭建一个“多语种学术论文摘要翻译助手”——该应用需支持多学科术语统一、多语言互译、格式保真,同时支持单次翻译与批量处理,适配科研团队的论文发表、文献阅读需求。使用场景:科研人员需要将中文/英文论文摘要翻译为目标语言(如日语、德语、法语),要求术语准确(如计算机、生物、物理等学科术语统一)、格式保真(保留摘要的“目的-方法-结果-结论”结构)、语气正式学术化。业务目标:支持多变量配置(源文本、源语言、目标语言、学科领域、格式模式);
2025-11-27 11:31:03
1021
原创 40、Dify学习(一)--基础入门
在AI应用开发领域,Dify作为一款开源的低代码Agent开发框架,正迅速成为开发者和企业的首选工具。它不仅简化了AI应用的开发流程,还提供了完整的应用生命周期管理功能,让开发者能够专注于业务逻辑而非技术细节。Dify的核心优势在于其模块化设计和可视化界面,通过"知识库"、"工具"和"工作室"三大核心功能模块,构建了从基础聊天机器人到复杂工作流的完整解决方案。
2025-11-21 14:29:06
1097
原创 39、LangChain1.0开发框架(四)--数据分析智能助手+开发上线
根据前面的内容,在对LangChain 1.0有了一定的基础了解之后,对于开发者来说,还需要进一步了解和掌握LangChain Agent必备的开发者套件。分别是LangChain Agent运行监控框架LangSmith、底层LangGraph图结构可视化与调试框架LangGraph Studio和LangGraph服务部署工具LangGraph Cli。可以说这些开发工具套件,是真正推动LangGraph的企业级应用开发效率大幅提升的关键。
2025-11-20 16:28:07
785
原创 38、LangChain1.0开发框架(三)-- LangChain1.0 中间件介绍
LangChain 1.0 引入的中间件(Middleware)机制,是其为了满足生产级应用需求而进行的一项核心升级。它解决了旧版本框架在上下文管理、流程控制和行为定制上不够灵活的问题,让你能够在不修改智能体(Agent)核心逻辑的情况下,精细地控制和干预其运行过程。
2025-11-18 10:57:04
1059
原创 37、LangChain1.0开发框架(二)-- LangChain1.0 Agent开发
LangChain1.0基本使用方法与LangChain很类似,最大的变化就是推出了全新的Agent API:create_agent。至此,LangChain Agent就已经不再是早期那种“带点魔法味的模型调用器”,它正式被定义为:一个可感知上下文、具备行动能力、可扩展、可插拔的智能运行体(Intelligent Runtime Unit)。简单来说,Agent 不再只是“用大模型回答问题”,而是能根据任务动态调用工具、推理决策、规划步骤,并与外部世界进行交互的 自治式执行体。LangChain 在 1
2025-11-10 22:57:21
1241
原创 36、LangChain1.0开发框架(一)-- LangChain1.0介绍
LangChain 1.0 正式版已全面上线,这是自2022年项目发布以来的首个大版本更新。相较于上一代 0.31.0 版本,1.0 版几乎重构全部核心代码,标志着框架进入稳定成熟的发展阶段。本次更新历经严谨筹备,9月2日发布测试消息后,经过一个多月公开测试和几十个小补丁优化,于10月底正式发布。作为长期稳定维护的版本,其 API 调用规则将在 2.0 版本诞生前长期有效,为开发者提供稳定的技术支撑。从 0.3 到 1.0 的版本号跨越,也彰显了 LangChain 进行颠覆式变革的决心。
2025-11-10 14:31:03
1017
原创 35、LangGraph开发框架(四)-- LangGraph实战入门演示
元素含义是什么?list字段的数据类型✅ Python 内置的类型(列表类型)字段的“附加语义”✅ LangGraph 提供的特殊函数(合并器/reducer),不是 list 的方法接下来我们需要创建一个大模型节点,接收用户的输入,并返回大模型的响应。接下来通过库读取env文件中的API_KEYimport osquestion = "你好,请你介绍一下你自己。你好!很高兴认识你!😊我是DeepSeek,由深度求索公司创造的AI助手。
2025-11-03 12:49:55
959
原创 34、LangGraph开发框架(三)-- LangGraph底层进阶
通过add_conditional_edges方法,我们可以根据某个条件(例如状态中的值)决定是执行一个节点还是另一个节点,从而控制图的执行流程。在编程中,最常见的条件循环结构是while循环,它会在每次循环前检查条件,如果条件为True,则继续执行循环体中的代码,直到条件变为False为止。条件分支是编程中常见的一种控制流结构,它允许程序根据某些条件(如变量的值)决定执行不同的代码路径。简单来说,条件分支让程序能够根据某个判断条件的真假来选择不同的执行路径,从而实现动态的决策。如果值为非正数,结束流程。
2025-10-31 15:13:58
1230
原创 33、LangGraph开发框架(二)-- LangGraph底层原理介绍
前面介绍了LangGraph基本概念,也使用create_react_agent做了简单的实验,如果说create_react_agent是一些图模板,那底层API就指的是允许用户手动去创建这些图的API。采用底层API构建智能体的话要求开发者掌握更加复杂的构建图的语法,但借助底层API,能够更加灵活的完成各类智能体的开发,而且在某些场景下,如实现人在闭环(Human in the loop)或者搭建多智能体(Multi Agent)系统时,必须要使用更加底层的图结构API才能够完成。
2025-10-31 11:20:29
1441
原创 32、LangGraph开发框架(一)-- LangGraph快速入门
说到现阶段目前最流行、最通用的Agent开发框架,毫无疑问,肯定是LangChain。LangChain作为2022年就已经开源的元老级开发框架,历经数年的发展,其功能和生态都已非常完善,并且拥有数量众多的开发者。在我们团队统计的今年第一季度大模型岗位JD中,有90%以上的Agent开发岗位要求掌握LangChain,可以说LangChain就是目前最通用、最流行的Agent开发框架没有之一。
2025-10-29 15:24:06
1042
原创 多模态大模型开发实战 -- OCR 基础入门
在当今信息环境中,单一模态的检索已无法满足人们的需求。随着图像、视频、音频以及文本等多模态数据的高速增长与普及,知识的呈现方式不再局限于纯文本,更多地以丰富的多模态形式存在。从医学影像到工业监控,从视频课程到社交媒体,核心信息往往蕴含在多模态内容的交叉中。传统的文本检索无法充分利用这些异质信息,导致知识获取存在片面与缺失。多模态RAG(Retrieval-Augmented Generation)系统正是在这一背景下显得愈发重要。
2025-10-29 10:55:38
1093
原创 31、LangChain开发框架(八)-- LangChain 数据分析智能体实战
模块技术组件说明PDF 问答构成 RAG 检索增强流程CSV 分析实现代码生成 + 可视化LLM统一 Agent 调用向量库支持中文语义匹配UIStreamlit + 自定义 CSS提供多 Tab 页面与交互式聊天状态管理管理历史、数据、图片等上下文PDF相关功能解说见上篇文章,这里主要对数据分析功能进行说明Step 1. CSV 文件上传与 DataFrame 显示。
2025-10-28 16:28:41
1589
原创 30、LangChain开发框架(七)-- LangChain RAG实战
在前面的博文中有详细介绍,下面做一个简单的回顾。假设现在我们有一个偌大的知识库,当想从该知识库中去检索最相关的内容时,最简单的方法是:接收到一个查询(Query),就直接在知识库中进行搜索。假设提问的Query的答案出现在一篇文章中,去知识库中找到一篇与用户输入相关的文章是很容易的,但是我们将检索到的这整篇文章直接放入Prompt中并不是最优的选择,因为其中一定会包含非常多无关的信息,而无效信息越多,对大模型后续的推理影响越大。
2025-10-28 15:31:38
947
原创 29、LangChain开发框架(六)-- LangChain agent进阶
使用Playwright创建一个同步的浏览器实例,访问网页并提取信息。初始化一个语言模型(),并创建一个工具代理(AgentExecutor)来总结网站内容。执行总结任务时,模型会访问网页并生成关于网页的总结报告。
2025-10-27 15:56:09
1924
原创 28、LangChain开发框架(五)-- LangChain agent调用
在中介绍了LangChain调用外部工具的基本流程,但是在我们真实使用中,如果按照chains的方法做编排时,会发现整个流程是人为创建好的,不够灵活;如果我问的问题不需要使用工具,或者使用多次等情况,自定义的chain就不能解决,或者说,如果要解决就会变得很复杂,所以今天我们来探讨一种更加方便的调用方式。
2025-10-27 10:46:34
762
原创 27、LangChain开发框架(四)-- LangChain接入工具基本流程
titanic数据集Titanic数据集是机器学习领域经典的入门数据集,记录了1912年泰坦尼克号沉船事件中部分乘客的生存信息。该数据集常用于分类任务(预测乘客是否幸存)和数据探索分析。你可以访问一个名为 `df` 的 pandas 数据框,请根据用户提出的问题,编写 Python 代码来回答。只返回代码,不返回其他内容。只允许使用 pandas 和内置库。"""])chain.invoke({"question": "请计算Age字段的均值。"})
2025-10-24 23:20:01
1037
原创 26、LangChain开发框架(三)-- LECL介绍及LangChain基本使用方法
在现代大语言模型(LLM)应用的构建中,LangChain 提供了一种全新的表达范式,被称为。它不仅简化了模型交互的编排过程,还增强了组合的灵活性和可维护性。本文将从概念、设计目的、核心特性和实际价值几个方面,系统性地介绍 LCEL 的本质。LCEL,全称为,是一种专为 LangChain 框架设计的表达语言。它通过一种链式组合的方式,允许开发者使用清晰、声明式的语法来构建语言模型驱动的应用流程。简单来说,LCEL 是一种“函数式管道风格”的组件组合机制,用于连接各种可执行单元(Runnable)。
2025-10-11 14:48:44
372
原创 25、LangChain开发框架(二)--快速入门
以目前比较热门的开发框架对比来看,LangChain始终保持快速迭代,其社区也是非常活跃,作为一个开发者想要在大模型开发取得更好的进步和成绩,最好是选择当前大家认可度比较高的框架作为开发语言,就像选择开发语言一样,训现阶段应该选择PyTorch,而不是tensorflow。LangChain从大模型角度出发,通过开发人员在实践过程中对大模型能力的深入理解及其在不同场景下的涌现潜力,使用模块化的方式进行高级抽象,设计出统一接口以适配各种大模型。# 一个简单的打印函数,调试用。
2025-10-10 17:50:34
1263
原创 24、LangChain开发框架(一)--基础介绍
LangChain框架为LLM应用开发提供全流程支持,通过标准化接口(LCEL/Tool/Retriever)降低集成成本,实现模型快速切换。核心组件包括:基础框架LangChain支持模块化构建;LangGraph实现复杂工作流编排;LangSmith提供开发生产可观测性;LangFlow实现低代码可视化开发。该生态覆盖从简单链到多智能体系统的全谱系需求,通过分层架构(LCEL轻量编排↔LangGraph复杂状态管理)显著缩短从原型到生产的距离。
2025-10-10 10:35:07
1290
原创 23、Swift框架微调实战(3)-Qwen2.5-VL-7B LORA微调OCR数据集
Qwen2.5-VL是阿里通义千问团队开源的视觉语言模型,具有3B、7B和72B三种不同规模,能够识别常见物体、分析图像中的文本、图表等元素,并具备作为视觉Agent的能力。Qwen2.5-VL 具备作为视觉Agent的能力,可以推理并动态使用工具,初步操作电脑和手机。在视频处理上,Qwen2.5-VL 能够理解超过1小时的长视频,精准定位相关片段捕捉事件。模型还支持发票、表单等数据的结构化输出。
2025-05-29 11:03:46
1396
原创 17、Swift框架微调实战(2)-QWQ-32B LORA微调cot数据集
QwQ 是 Qwen 系列的大模型之一,专注于 推理能力(reasoning)。相比于传统的 指令微调(instruction-tuned) 模型,QwQ 具备 思考与推理(thinking and reasoning) 的能力,因此在各种下游任务(特别是复杂问题)上,能实现 显著的性能提升。QwQ-32B 是该系列的 中等规模推理模型,其性能可媲美当前最先进的推理模型,如 DeepSeek-R1 和 o1-mini。QwQ 32B 模型,具有以下特性:下载地址:https://www.modelscop
2025-04-03 16:04:20
2086
原创 16、Swift框架微调实战(1)-自我认知数据LORA微调
ms-SWIFT GitHub项目主页:ms-swift( Scalable lightWeight Infrastructure for Fine-Tuning)是由魔搭社区(ModelScope) 开发的高效微调和部署框架,旨在为研究人员和开发者提供一站式的大模型与多模态大模型的训练、推 理、评测、量化和部署解决方案。
2025-04-03 16:02:42
1703
原创 Windows环境下MySQL安装与配置
选中MySQL Server,点击下方options设置安装目录以及数据存放位置(不要包含中文以及中文空格)地址:https://dev.mysql.com/downloads/至此,软件的安装部分就安装完毕,点击next进行后续配置。选择MySQLServer,其他产品根据自己需要进行添加。点击finish->next->finish。终端输入:mysql --version。双击系统变量中的Path,点击execute继续。
2025-02-28 14:56:33
519
原创 22、graphRAG的原理及代码实战(3)基本原理介绍(下)
在GraphRAG的查询阶段,核心任务是基于构建好的知识图谱来检索相关信息并生成回答。具体来说,查询阶段会利用之前在 索引阶段 构建的所有实体、关系和社区报告等信息,结合用户的查询请求,自动选择最相关的上下文,并通过大语言模型(如GPT等)生成智能化的回答。GraphRAG检索方式有两种,本地搜索和全局搜索本地搜索:主要聚焦于回答与特定实体相关的问题,适用于需要理解输入文档中提到的特定实体细节的场景,比如查询 “洋甘菊的治疗特性是什么”,旨在从文档中提取与该特定实体紧密相关的信息。
2025-02-25 15:52:22
1445
原创 15、DeepSeek R1高效微调实战
将 重点介绍如何使用主流微调框架unsloth,围绕DeepSeek R1 Distill 7B模型进行高效微调,并详细 介绍专门用于推理大模型高效微调的COT数据集的创建和使用方法,并在一个医学数据集上完成高效微 调实战,并最终达到问答风格优化+知识灌注目的,让模型在微调过程中掌握复杂医学问题的专业推理过 程,并提高疾病诊断的准确率。尽管全量微调可以对模型的能力进行深度改造,但要带入模型全部参数进行训练,需要消耗大量的 算力,且有一定的技术门槛。而该数据集也是可以用于推理模型微调的数据集。
2025-02-25 15:50:38
1912
原创 14、deepseek视觉大模型Janus Pro本地部署及实战
2025.01.27: Janus-Pro发布,Janus的高级版本,显著提高了多模态理解和视觉生成。Janus-Pro 是 Janus 的高级版本。具体来说, Janus-Pro 包括以下改进:优化的训练策略、 扩展的训练数据以及更大规模的模型。通过这些改进, Janus-Pro 在多模态理解和文本生成图像的指令跟 随能力上取得了显著进步,同时还提升了文本生成图像的稳定性。git连接Janus 是一种新颖的自回归框架,它统一了多模态理解和生成。
2025-02-14 17:03:09
2483
原创 21、graphRAG的原理及代码实战(2)基本原理介绍(中)
前文中,graphRAG项目index索引建立完成后,会生成7个parquet文件。为什么用 Parquet 格式保存知识图谱?高效存储:知识图谱中的数据通常是结构化的,包含大量的实体、关系、嵌入等。Parquet 的列式存储能够显著减少磁盘占用,同时提高读取效率。快速读取:查询阶段需要快速加载实体、关系、嵌入等数据到内存中。Parquet 支持按需加载所需的列,避免了不必要的数据读取。
2025-02-14 16:30:39
1481
原创 20、graphRAG的原理及代码实战(1)基本原理介绍(上)
GraphRAG通过利用大模型从原始文本数据中提取知识图谱来满足跨上下文检索的需求。该知识图将信息表示为互连实体和关系的网络,与简单的文本片段相比,提供了更丰富的数据表示。这种结构化表示使 GraphRAG 能够擅长回答需要推理和连接不同信息的复杂问题。具体来看,GraphRAG 定义了一个标准化数据模型,整体框架由几个关键组件组成,分别用于表示文档、TextUnit、实体、关系和社区报告等实体。像传统RAG一样,GraphRAG 过程也涉及两个主要阶段:索引和查询。我们依次展开来进行讨论。
2025-02-07 18:25:43
1577
原创 19、RAG的原理及代码实战(2)pipeline介绍
需要注意的是,在RAG检索时,所有切分的文本,不管其长度是多少,都会转换为一个词向量,也就是每一个切片是一个词向量表示。如果不方便注册openai模型时,可以考虑使用国内在线词向量模型,当然也可以使用ollama等工具部署本地的词向量模型。相似度计算是指使用查询向量在嵌入模型生成的向量空间中检索与问题最相关的文本块。有了向量表示后,需要使用向量来计算不同向量之间的相似度,计算的方法有很多,这里以余弦相似度为例来介绍。这里以硅基流动的在线模型为例,需要的也可以注册使用。编写获取向量之间相似度计算的函数。
2025-02-07 14:59:31
830
原创 18、RAG的原理及代码实战(1)基本原理
数据准备支持多种格式的数据,包括 PDF、TXT、Word(DOC)和 Markdown(MD)文件。这些文件是知识的来源。切分(Chunking)将这些文件中的内容进行切分,将大段的文本切割成较小的、易于处理的块。这些块将作为后续步骤的基础。Embedding Model(嵌入模型)使用嵌入模型将切分后的文本块转换为向量表示。这些向量能够在高维空间中表示文本的语义信息。查询向量(Query Vector)用户提出问题,这个问题同样通过嵌入模型转换为查询向量。
2025-02-05 16:48:26
1550
原创 13、Ollama OCR
Ollama OCR,是一个强大的OCR(光学字符识别)工具包。利用 Ollama 的先进视觉语言模型从图像中提取文本,可作为 Python 包和 Streamlit 网络应用程序使用。具有支持多种视觉模型、多种输出格式、批量处理、图像预处理等功能。还介绍了安装方法、快速入门示例、输出格式细节以及 Streamlit 网络应用程序的特点。
2025-01-06 16:04:47
2031
原创 ImportError: /lib64/libstdc++.so.6: version `GLIBCXX_3.4.30‘ not found (required by /root/miniconda3
报错展示缺少所需的GLIBCXX_3.4.30版本的GLIBCXX,下面是解决的办法。
2024-11-18 15:08:47
1389
2
原创 麒麟系统安装显卡驱动
系统中有一块 NVIDIA 显卡,型号为 GA100GL(A30 PCIe),设备 ID 为 [10de:20b7]。如果显示了 NVIDIA GPU 信息,则说明驱动安装成功。根据 NVIDIA 显卡,型号为。下载了 NVIDIA 驱动的。使用yum命令清除缓存。使用yum命令安装驱动。
2024-10-24 16:30:00
10108
原创 12、xinference部署与自定义模型
官网:https://inference.readthedocs.io/zh-cn/latest/getting_started/installation.html。在xinference界面选择注册模型–>embedding模型,根据实际的参数进行填写,主要是路径要写对。记住下载文件的路径,可以在代码中进行设置自定义的路径。下载一个本地的模型,可以在魔塔社区进行下载。我们以embedding模型为例测试。安装后重新注册并launch。如果报错,需要去安装依赖包。
2024-09-12 15:29:03
3248
原创 11、LLaMA-Factory自定义数据集微调
针对实际的微调需求,使用专门针对业务垂直领域的私有数据进行大模型微调才是我们需要做的。因此,我们需要探讨如何在LLaMA-Factory项目及上述创建的微调流程中引入自定义数据集进行微调。alpaca和sharegpt。
2024-09-06 15:05:00
12919
7
原创 10、ollama启动LLama_Factory微调大模型(llama.cpp)
在介绍了如何使用LLama_Factory微调大模型,并将微调后的模型文件合并导出,本节我们我们看下如何使用ollama进行调用。
2024-08-30 11:14:29
3866
2
原创 9、LLaMA-Factory项目微调介绍
LLaMA Factory是一个在GitHub上开源的项目,该项目给自身的定位是:提供一个易于使用的大语言模型(LLM)微调框架,支持LLaMA、Baichuan、Qwen、ChatGLM等架构的大模型。更细致的看,该项目提供了从预训练、指令微调到RLHF阶段的开源微调解决方案。截止目前(2024年3月1日)支持约120+种不同的模型和内置了60+的数据集,同时封装出了非常高效和易用的开发者使用方法。
2024-08-28 16:26:17
3841
4
原创 GLM-4-9B 支持 Ollama 部署
它提供了一个简单而高效的接口,用于创建、运行和管理这些模型,同时还提供了一个丰富的预构建模型库,可以轻松集成到各种应用程序中。通过Ollama,用户可以方便地部署和运行GLM-4-9B 等开源的大语言模型。此外,Ollama还提供了包括网页、桌面应用和终端界面在内的多种互动方式,方便用户使用和管理这些模型。在语义、数学、推理、代码和知识等多方面的数据集测评中, GLM-4-9B 在各项能力上均表现出卓越的能力。该模型是在 GLM-4-9B 基础上持续训练的多语言代码生成模型,显著提升了代码生成能力。
2024-07-12 11:06:41
1634
原创 linux安装Miniconda
每次打开terminal时自动激活base环境。Miniconda官网下载。将下载的文件上传到服务器。查看anaconda信息。按照提示一路向下,内容。成功激活base环境。
2024-07-11 15:18:31
536
Attention Is All You Need论文
2024-07-04
diabetes_train.txt
2020-05-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅