【Agent实战】发票信息识别提取专家(AI +OCR技术结合ChatGPT4o能力+结构化prompt(CoT、One-shot等)+Knowledge - RAG+API工具Agent项目实践)

本文原创作者:姚瑞南 AI-agent 大模型运营专家,先后任职于美团、猎聘等中大厂AI训练专家和智能运营专家岗;多年人工智能行业智能产品运营及大模型落地经验,拥有AI外呼方向国家专利与PMP项目管理证书。(转载需经授权)     

目录

1. 项目背景

2. 项目目标

定性:

定量:

3. 发票核心字段概述

4. 关键举措

5. Workflow设计思路及编排

5.1 整体设计思路

5.2 流程搭建及解读

流程解读:

代码节点:解析agent数据流

代码节点1:解析输入的 JSON 数据

代码节点2:清理并提取有用的数据

5.3 prompt编写(OCR识别)

6. Agent设计思路及搭建

6.1 提示工程设计

6.2 Knowledge-Enhanced RAG应用

6.3 API工具封装

7. 应用效果

Workflow效果:

Agent效果:

业务效果:

8. 项目需求列表

9. 线上问题标注分析

10. 收益评估

11. 未来优化思路


1. 项目背景

在运输行业中,发票扮演着核心的角色,是财务核算、货物跟踪、供应链管理等多个环节的关键文档。这些发票详细记录了运输费用、货物的类型、数量及目的地等重要信息。由于发票中的信息具有高度的通用性,通过结合AI和OCR、RAG等技术(ChatGPT4o能力+结构化prompt(CoT、One-shot等)+Knowledge - RAG+API工具)可以有效地让人工智能系统理解来自不同客户的发票内容,自动识别并提取出关键数据。这不仅可以帮助企业精确地进行成本控制和物流规划,还能显著提高数据处理的效率和准确性,进一步推动行业向数字化和智能化转型。通过这种技术整合,UNIS等公司能够通过自动化的方式处理大量的发票数据,从而实现成本节约和效率提升。

2. 项目目标

定性:

通过AI+OCR技术结合ChatGPT能力,让大模型理解发票并从中提取UNIS所需的关键信息,实现通用化的发票解决方案,开发发票识别提取助手Agent并可作为自动化手段,直接将ChatGPT提取好的发票数据对接BNP系统录入。

定量:

  • 发票识别率
  • 发票识别准确率
  • 发票字段上传成功率

3. 发票核心字段概述

这是按类别组织的发票字段的详细表格呈现:

分类

字段

详情

基本信息

发票标题

Security Invoice

发票编号

INV1159

开票日期

Dec 2, 2024

截止日期

Dec 2, 2024

财务详情

小计

$783.00

税额

$0.00

总计

$783.00

余额应付

USD $783.00

公司信息

公司名称

Nor-Cal Private Security Services

公司地址

29003 Tern Pl, Hayward CA 94545

公司电话

510-388-4253

公司电子邮件

ncsrataul@gmail.com

支付信息

付款方式

By Check

客户信息

客户名称

Unified Network Information Services (UNIS)

客户电子邮件

yuxi.liu@unisco.com

服务详情

服务描述

Security service from 11/25/24 to 12/01/24

单价

$29.00

数量

27

服务金额

$783.00

这个表格将发票的信息分为基本信息、财务详情、公司信息、支付信息、客户信息和服务详情等类别,使信息的查找和分析更加清晰和系统化。 ​

这些字段构成了发票的主要内容,涉及到开票方和接收方的详细信息、服务的具体描述以及费用计算。这些信息的自动提取和处理对于财务管理、成本控制和供应链管理都极为关键,尤其是在物流和运输行业中。利用AI和OCR技术,可以高效地从众多发票中提取这些数据,帮助企业实现自动化处理和分析,提升运营效率。

4. 关键举措

序号

动作

备注

1

整体发票识别agent及workflow设计思路梳理、撰写

2

agent搭建及workflow搭建、优化

3

prompt编写及迭代、效果测试

4

知识库搭建、API工具封装

5

线上发票问题排查及优化解决

6

识别准确率计算、收益评估

5. Workflow设计思路及编排

5.1 整体设计思路

发票文件分为图片和PDF格式,单个发票文件可能包含多页图片或PDF,采用workflow方式设计符合业务需求,workflow主要分两个分支:

1. 图片识别:如果条件判断发票为图片,直接进行LLM-OCR技术识别(提示词驱动)

2. PDF识别:如果条件判断发票为PDF,则使用迭代节点,先调用工具,将PDF转化为图片,然后重新调用该workflow把图片作为输入走图片识别分支

注意:workflow可以发布为API,通过http节点post方式鉴权这个流程的API-key来重新调用该workflow

5.2 流程搭建及解读

Dify平台DSL源文件: AP_InvoiceInfo-workFlow-AIAgent.yml  AP_InvoiceInfo-Agent-AIAgent.yml 

流程解读:

序号

节点名称

解读

图示

1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值