1.目标
利用大模型的语言处理能力,简化日常工作中的审核环节工作。
2.流程
解析文档(doc、xls、pdf、图片)-->处理文档(剔除非法内容、截取定制化内容、抽取标签数据、繁简转换等)-->根据指标或者任务标准去对文档进行审核
3.设计
解析文档
a) java版本使用tika组件,可以直接使用
b) python版本使用docx2text、PyPDF2、pdfplumber、pandas等,需要根据文件类型调用不同的组件
处理文档
这里一般按用户需求做一些定制化开发。通用的部分有章节分段、繁简转换等。本次业务需求中,就需要我们去抽取标签数据,并将文本中的内容格式化成标准json。
自动审批
这里我们将用户日常任务中的招投标文件审核进行自动化处理。
招投标文件一般包含招标文件和投标文件两部分,招标文件由招投标代理公司或者业务甲方出具,里面包含了本次的招标目的、要求、详细规则等。投标文件是由投标单位或者业务乙方根据招标文件去编写的文件,主要是根据招标文件的要求去填写一个公司信息、工程设计相关内容、资质文件等。由于这类文件量大内容多,审核成本太高,需要降本增效。
将招标的要求抽取成单个问题,并对着投标放提供的文档进行提问,获得对应的答案
样例:
从招投标文件中截取一部分标准如下
四、投标供应商资格条件
(一)具有企(事)业法人资格(有行业特殊情况的银行、保险、电力、电信等法人分支机构,会计师、律师等非法人组织,行业协会等社会团体法人除外);
(二)国有企业;事业单位:(略)
(三)具有良好的商业信誉和健全的财务会计制度;
(四)具有履行合同所必需的设施设备、专业技术能力、质量保证体系和固定的生产经营、服务场地;
(五)有依法缴纳税收和社会保障资金的良好记录;
(六)参加军队采购活动前3年内,在经营活动中没有受到刑事处罚或者责令停产停业、吊销许可证或者执照、较大数额罚款(200万元以上)等重大违法记录;
根据招投标的供应商资格条件去供应商提供的投标文件中,判断该供应商是否有资格进行此次投标。
抽取条件中的数据通过LLM转换成问题
text = """
有依法缴纳税收和社会保障资金的良好记录
"""
prompt = (f"你的任务是将投标供应商资格条件中的某个条件,转化为一个问题。"
f"样例"
f"条件:国有企业;事业单位"
f"转换如下"
f"问题:供应商是否国有企业或者事业单位?"
f"根据上面的样例将下面的条件转化为问题"
f"条件:```{text}```")
生成一个问题
供应商是否有依法缴纳税收和社会保障资金的良好记录?
再根据该问题去文档中获取答案。
text = """
原凭证号|税种|品目名称|税款所属时期|实缴金额 \n
3111222|增值税|建筑服务|2020|48920000.12
"""
prompt = (f"```问题:供应商是否有依法缴纳税收和社会保障资金的良好记录?```"
f"你的任务是读取并理解下面的文章并回答上面的问题。"
f"1.分析问题中有几个检查项"
f"2.根据不同的检查项去文章中找到对应的内容"
f"3.按检查项回答问题"
f"文章:```{text}```")
LLM回复
1. 问题中有两个检查项:依法缴纳税收和社会保障资金。
2. 文章内容只涉及税收部分,具体为增值税的缴纳情况,没有提及社会保障资金的缴纳信息。
3. 根据文章内容回答问题:
- 依法缴纳税收:是。文章提供的表格显示了一个增值税的缴纳记录,税种为增值税,品目名称为建筑服务,税款所属时期为2020年,实缴金额为48,920,000.12元,这表明供应商在2020年有依法缴纳增值税的良好记录。
- 社会保障资金:未知。文章中没有提供关于供应商缴纳社会保障资金的信息,因此无法判断其在社会保障资金缴纳方面的记录是否良好。
一个简单的示例,通过LLM解决大量繁琐的文档阅读