本文原创作者:姚瑞南 AI-agent 大模型运营专家,先后任职于美团、猎聘等中大厂AI训练专家和智能运营专家岗;多年人工智能行业智能产品运营及大模型落地经验,拥有AI外呼方向国家专利与PMP项目管理证书。(转载需经授权)
目录
1. 项目背景
在运输行业中,发票扮演着核心的角色,是财务核算、货物跟踪、供应链管理等多个环节的关键文档。这些发票详细记录了运输费用、货物的类型、数量及目的地等重要信息。由于发票中的信息具有高度的通用性,通过结合AI和OCR、RAG等技术(ChatGPT4o能力+结构化prompt(CoT、One-shot等)+Knowledge - RAG+API工具)可以有效地让人工智能系统理解来自不同客户的发票内容,自动识别并提取出关键数据。这不仅可以帮助企业精确地进行成本控制和物流规划,还能显著提高数据处理的效率和准确性,进一步推动行业向数字化和智能化转型。通过这种技术整合,UNIS等公司能够通过自动化的方式处理大量的发票数据,从而实现成本节约和效率提升。
2. 项目目标
定性:
通过AI+OCR技术结合ChatGPT能力,让大模型理解发票并从中提取UNIS所需的关键信息,实现通用化的发票解决方案,开发发票识别提取助手Agent并可作为自动化手段,直接将ChatGPT提取好的发票数据对接BNP系统录入。
定量:
- 发票识别率
- 发票识别准确率
- 发票字段上传成功率
3. 发票核心字段概述
这是按类别组织的发票字段的详细表格呈现:
分类 |
字段 |
详情 |
基本信息 |
发票标题 |
Security Invoice |
发票编号 |
INV1159 |
|
开票日期 |
Dec 2, 2024 |
|
截止日期 |
Dec 2, 2024 |
|
财务详情 |
小计 |
$783.00 |
税额 |
$0.00 |
|
总计 |
$783.00 |
|
余额应付 |
USD $783.00 |
|
公司信息 |
公司名称 |
Nor-Cal Private Security Services |
公司地址 |
29003 Tern Pl, Hayward CA 94545 |
|
公司电话 |
510-388-4253 |
|
公司电子邮件 |
ncsrataul@gmail.com |
|
支付信息 |
付款方式 |
By Check |
客户信息 |
客户名称 |
Unified Network Information Services (UNIS) |
客户电子邮件 |
yuxi.liu@unisco.com |
|
服务详情 |
服务描述 |
Security service from 11/25/24 to 12/01/24 |
单价 |
$29.00 |
|
数量 |
27 |
|
服务金额 |
$783.00 |
这个表格将发票的信息分为基本信息、财务详情、公司信息、支付信息、客户信息和服务详情等类别,使信息的查找和分析更加清晰和系统化。
这些字段构成了发票的主要内容,涉及到开票方和接收方的详细信息、服务的具体描述以及费用计算。这些信息的自动提取和处理对于财务管理、成本控制和供应链管理都极为关键,尤其是在物流和运输行业中。利用AI和OCR技术,可以高效地从众多发票中提取这些数据,帮助企业实现自动化处理和分析,提升运营效率。
4. 关键举措
序号 |
动作 |
备注 |
1 |
整体发票识别agent及workflow设计思路梳理、撰写 |
|
2 |
agent搭建及workflow搭建、优化 |
|
3 |
prompt编写及迭代、效果测试 |
|
4 |
知识库搭建、API工具封装 |
|
5 |
线上发票问题排查及优化解决 |
|
6 |
识别准确率计算、收益评估 |
5. Workflow设计思路及编排
5.1 整体设计思路
发票文件分为图片和PDF格式,单个发票文件可能包含多页图片或PDF,采用workflow方式设计符合业务需求,workflow主要分两个分支:
1. 图片识别:如果条件判断发票为图片,直接进行LLM-OCR技术识别(提示词驱动)
2. PDF识别:如果条件判断发票为PDF,则使用迭代节点,先调用工具,将PDF转化为图片,然后重新调用该workflow把图片作为输入走图片识别分支
注意:workflow可以发布为API,通过http节点post方式鉴权这个流程的API-key来重新调用该workflow
5.2 流程搭建及解读
Dify平台DSL源文件: AP_InvoiceInfo-workFlow-AIAgent.yml AP_InvoiceInfo-Agent-AIAgent.yml
流程解读:
序号 |
节点名称 |
解读 |
图示 |
1 |