Dify+工作流，通过多模态实现发票自动识别

最新推荐文章于 2025-03-21 18:04:45 发布

odin2005

最新推荐文章于 2025-03-21 18:04:45 发布

阅读量5.2k

点赞数 17

文章标签：人工智能 gpt langchain

本文链接：https://blog.csdn.net/odin2005/article/details/144768169

版权

1. 概述

上个章节我们用Dify实现了基于本地知识库的聊天助手，本节我们通过工作流，可视化界面快速构建复杂的工作流和自动化流程。结合 OCR（光学字符识别）技术和工作流引擎，可以实现发票的自动识别、数据提取以及后续的审批流程。本文将详细介绍如何使用 Dify 和工作流来实现发票的自动识别与审批。

2. 需求分析

发票自动识别：通过 OCR 技术，自动从扫描或拍照的发票图像中提取关键信息（如发票号码、金额、日期、供应商等）。
数据验证：对提取的数据进行验证，确保其准确性和完整性。

3. 技术选型

OCR 引擎：使用第三方 OCR API（如 Google Cloud Vision、Tesseract、阿里云 OCR 等）来识别发票上的文字信息。
Dify 平台：用于构建和管理整个工作流，包括发票上传、数据提取、审批流程、通知和归档。

4. 实现步骤

4.1 设计工作流

step1 创建应用：登录Dify，切换到工作室选项卡，点击创建空白应用

step2 选择工作流，并且填写应用名称，点击“创建”

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

odin2005

关注关注

17
点赞
踩
28

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【AI】基于多模态火车票数据提取-告别繁琐工作，效率提升200%

德仔

03-11

132

这里面主要功能：用户上传一张发票图片，发票会经过文档提取器。文档提取器提取用户上传的发票传递给2个llm多模态模型，两个多模态模型是实现发票票面信息的提取功能。然后将提取的发票票面信息发送给第三个基于llm文本的大模型，它充当模型裁判功能。主要的功能是将2个模型输出的JSON格式的数据比对，比对的结果输出给客户。从而实现发票识别比对判断功能。实现的效果如下：数据有差异的效果：下面我们重点介绍一下这个工作流是如何实现的。创建工作流或者chatflow。

dify类工作流支持图像文件上传聊天；表格报表分析输出图表案例

weixin_42357472的博客

01-16

2887

参考：主要就是sys参数。

2 条评论您还未登录，请先登录后发表或查看评论

多类型图像OCR：基于Dify的多模态Agent实现

AI相关从业分享

06-14

8134

Agent 通常是一个智能软件实体，能够感知其环境，并根据这些感知做出决策和行动。它可能包括学习能力，以优化其未来的决策和行动。当下Agent研究往往是针对于文本类型数据输入，对语义进行感知并决策，现在对图文多模态输入的Agent研究相对比较匮乏。需要强调的是，由于Dify不支持图像数据在工作流中的流通控制，因此本设计使用图像链接。对不同类型图像进行识别时的解决方案。

[DeepSeek]一、DeepSeek+Dify创建工作流

weixin_44428807的博客

02-19

1785

取好一个名字：test1 之后，添加“文档提取器”，大模型没有办法直接处理文档，因此添加一个“文档提取器”的节点。文档提取器 --> 输入变量（input），为开始节点设置的变量。最后添加一个结束节点，一条工作流就完成了。开始节点 -> 选择"单文件"作为输入。创建工作流：文档总结规划。

将Dify文档中的CSV数据提取并用ECharts可视化工具开发指南

engchina的专栏

03-15

2541

将Dify文档中的CSV数据提取并用ECharts可视化工具开发指南

dify案例分享-基于多模态模型的发票识别2-多种发票识别

xx_nm98的博客

11-04

2619

本期文章我们在原有的单张发票识别基础上实现多种发票识别的dify基于工作流的智能体。下面我们首先介绍一下整体功能。这里面主要功能：用户上传一个发票图片（目前我们这工作流支持6种发票），发票会经过文档提取器。文档提取器提取用户上传的发票传递给llm多模态模型，这个模型的作用是判断这发票是哪个类型的发票，接下来我们会根据条件分支来判断走哪个多模态发票提取的llm大语言模型。其中这6个大语言模型区别就在于他们的系统提示词不一样，主要就是每个发票票面信息不一样。

dify案例分享-基于多模态模型的发票比对

m0_59235699的博客

11-13

3168

我们在实际工作中发现OCR识别的发票准确性要求比较高。基于多模态大模型OCR识别这块可能会遇到对票面信息识别不准的问题，这样会财务报销就会产生很大的问题。基于以上的问题我们来实现一个发票比对工作流。下面我们首先介绍一下整体功能。这里面主要功能：用户上传一张发票图片，发票会经过文档提取器。文档提取器提取用户上传的发票传递给2个llm多模态模型，两个多模态模型是实现发票票面信息的提取功能。然后将提取的发票票面信息发送给第三个基于llm文本的大模型，它充当模型裁判功能。

dify案例分享-基于多模态模型的发票识别

竹林幽深

12-30

3987

硅基流动是一家专注于人工智能基础设施和生成式AI技术的初创公司。硅基流动是致力于构建可扩展、标准化且高性能的生成式AI计算基础设施平台，提供包括SiliconCloud（模型云服务平台）、SiliconLLM（大型语言模型推理引擎）和OneDiff（高性能文本到图像/视频加速库）在内的多种软件解决方案。公司的网站https://siliconflow.cn目前公司有三个产品siliconCloud、siliconLLm、OneDiff该公司提供市面上主流模型，而且最关键是免费。

dify实战案例分享-基于多模态模型的发票识别

2401_85375298的博客

11-04

6394

文生图和图生图也支持目前市面主流图像生成模型（FLUX.1-dev 、FLUX.1-schnell、stable-diffusion-3-medium、stable-diffusion-xl-base-1.0、stable-diffusion-2-1、sd-turbo、sdxl-turbo、SDXL-Lightning）关于硅基流动多模态模型设置。这里我们设置一下硅基流动多模态模型的配置，这里我们就以Qwen/Qwen2-VL-72B-Instruct 为案例给大家介绍，大家可以看我下面的截图设置。

基于dify开发的多模态大模型应用-智能铭牌识别（附代码）

AI相关从业分享

05-06

8210

多模态大模型实现这一功能，相比于传统的OCR系统，其优势更强。

Dify 保姆级教程之：零代码打造票据识别专家

u010522887的专栏

11-07

1995

本文通过一个简单案例，带大家实操了**Dify 搭建票据识别专家**。

AI工作流+专业知识库+系统API的全流程任务自动化

神棍之路

02-20

1105

通过整合AI工作流、专业知识库和系统API接入，大模型可以高效完成工单处理任务，实现从任务解析到执行的全流程自动化。通过上述技术组合，企业可实现工单处理效率提升50%以上（根据实际场景测试数据）。建议优先从高频、低风险场景切入，逐步构建完整的智能化工单处理体系。工单流程拆解与AI工作流编排。工作流与API集成模式。

RAG私域问答场景升级版方案(第二期方案)[2]：工业级别构建私域问答（业务问题、性能问题、安全成本问题等详细解决方案）

丨汀、的博客

08-07

736

RAG私域问答场景升级版方案(第二期方案)[2]：工业级别构建私域问答（业务问题、性能问题、安全成本问题等详细解决方案）

DeepSeek+dify 本地知识库：高级应用Agent+工作流

xxue345678的博客

03-17

3657

工作流通过将复杂的任务分解成较小的步骤（节点）降低系统复杂度，减少了对提示词技术和模型推理能力的依赖，提高了 LLM 应用面向复杂任务的性能，提升了系统的可解释性、稳定性和容错性。一个完整的工作流，必须具备。

dify 一键爆款图文工作流分享

热门推荐

JIZQAQ学习&踩坑笔记本

10-14

1万+

最近刚开始研究Dify的工作流使用，遇到一个头大的问题，希望上传图片并识别出图片上的文字，但是即时Dify的开始，提供了sys.files进行文件上传功能，可是我无法再LLM的上下文当中增加这个变量的识别。经过我多天的研究之后，发现个很奇怪的解决办法，创建一个工作流编排的聊天助手，这个结束里面选择到sys.files是在一个文本框里面，然后可以直接复制…查了半天也不知道怎么处理…真的是个又傻逼又偏门的解决办法，虽说能用就行，但如果有大佬路过，希望能告诉我还有什么其他正常的解决办法TuT。

使用Dify为DeepSeek-R1添加多模态功能

m0_59235945的博客

02-11

3461

在DeepSeek-R1引发全球AI领域关注之际，其突破性的推理能力已通过多项测试得到验证：模型不仅将AIME数学竞赛准确率从15.6%提升至86.7%，更在Codeforces编程竞赛中超越96.3%人类参与者，展现出真实的数学直觉与迁移学习能力。然而作为纯文本模型，其官方版本存在多模态能力缺失与功能互斥的局限。我选择通过Dify构建智能编排层：以DeepSeek-R1作为推理引擎，驱动更强大模型的多模态能力，实现文件解析与网络连接的协同运作。

dify文档提取器提取不了excel

03-12

### Dify 文档提取器处理 Excel 文件的解决方案当前遇到的问题在于 Dify 文档提取器默认情况下可能不具备直接解析和提取 Excel 文件内容的能力。为了克服这一局限性，可以考虑采用以下几种方法： #### 方法一：转换文件格式将 Excel 文件预先转换为其他受支持的格式再进行上传。例如，可先将 `.xlsx` 或 `.xls` 转换成 PDF 格式，之后利用已有的 RAG Pipeline 功能来读取并索引这些文档中的文本信息[^2]。 ```bash # 使用命令行工具如 LibreOffice 进行批量转换 libreoffice --headless --convert-to pdf *.xlsx ``` #### 方法二：集成第三方库或服务引入专门用于处理电子表格的应用程序接口(API)，像 Pandas 库或者 Google Sheets API 等，它们能够有效地加载、分析以及导出 Excel 数据表的内容。这样可以在预处理阶段获取所需的数据字段，并将其作为结构化数据输入给 Dify 工作流。 ```python import pandas as pd # 加载 Excel 文件 df = pd.read_excel('example.xlsx') # 将 DataFrame 中的数据转成 JSON 字符串形式以便后续处理 json_data = df.to_json(orient='records') print(json_data) ``` #### 方法三：增强现有架构功能如果条件允许的话，还可以尝试扩展现有的 Dify + DeepSeek 架构，在本地环境中加入额外的支持模块以实现对 Excel 的原生支持。这不仅提高了系统的兼容性和实用性，同时也增强了对于敏感资料的安全防护措施[^3]。通过上述任一种方式都可以有效改善 Dify 对于 Excel 文件的操作能力，确保各类办公自动化流程顺利开展的同时也保护好用户的隐私权与数据主权[^1]。