Pydantic+AI大模型：从非结构化数据中提取关键信息，以财务报表为例

最新推荐文章于 2025-03-20 17:34:50 发布

程序员笑武

最新推荐文章于 2025-03-20 17:34:50 发布

阅读量1.9k

点赞数 23

文章标签：人工智能 llama 面试职场和发展深度学习

本文链接：https://blog.csdn.net/m0_59164304/article/details/141504106

版权

如今，许多人专注于获取数据和训练定制模型，但往往忽略了现有数据处理流程的重要性，而这些流程可以利用结构化数据提供有价值的见解。

从资产负债表和其他财务报表中提取结构化财务数据，对于了解公司的成长情况至关重要。

资产管理公司（AMCs）、经纪人和投资者，都依赖准确的结构化财务数据来做出明智的决策。

在基于检索增强生成（RAG）和大语言模型（LLM）的工作流程中，结构化输出不仅提高了准确性和清晰度，还让数据更利于理解。

通过分析公司发布的财务报告，了解其财务状况和计划，是寻找投资机会的重要途径。

然而，这些文档通常是非结构化的，手动提取关键信息非常困难。结构化财务数据利于解决这一问题，简化了数据提取过程，提高了效率。

提取前准备

基于模板提取数据

基于模板提取数据非常简单。通过使用模式定义属性及其类型，可以轻松利用Pydantic等库进行提取。

为什么要使用Pydantic提取呢？

编写的代码很少。Pydantic利用类型提示进行模式验证和提示，这意味着需要学习的内容更少，编写的代码更少，并且有更好的IDE集成。

高度可定制。Pydantic允许自定义验证器、错误信息等，使其高度可定制。

使用场景广泛。Pydantic是最受欢迎的Python数据验证库，每月下载量超过1亿次。FastAPI、Typer等许多流行库都在使

关键组件

在从非结构化或半结构化数据中提取结构化数据时，需要使用下面组件。

Pydantic BaseModel。这是提取流程中的关键组件之一，因为准确命名带有类型的属性是成功提取的重要部分。

提示词。提示词越详细和具体，得到的结果就越好。在这里，我们仅提供一个Pydantic BaseModel作为输入。

Instructor和Indexify等框架会根据其定义的提示词模板，使用这个BaseModel生成提示词。这一步决定了LLM能否有效地产出所需结果。

大模型。在流程中，大模型基于提供的提示提取所有信息（参考给定文本），这意味着选择更好的大模型将获得更好的提取结果。这些信息块随后被用来提取属性并转换为JSON格式。

验证器。验证是为了确保大模型返回的结果准确。如果结果不正确，将报告错误并重新设计提示，流程重新进行提取过程。

实施

你无需从头开始，可以利用Tensorlake的Indexify框架来提取关键数据。

Indexify是一个数据框架，用于构建非结构化数据的提取流程。

这些流程使用声明式配置，每个阶段可以使用AI大模型结构化提取数据。一旦数据被提取到Indexify中，流程就会立即开始运行，非常适合交互式应用和低延迟用例。

设置提取器

pip install indexify indexify-extractor-sdk``   ``curl https://getindexify.ai | sh``   ``sudo apt-get install -y poppler-utils``   ``indexify-extractor download tensorlake/chunk-extractor``indexify-extractor download tensorlake/minilm-l6``indexify-extractor download tensorlake/pdfextractor``indexify-extractor download tensorlake/marker``indexify-extractor download tensorlake/schema

安装所需库并下载服务器和提取器后，重启运行环境。然后继续运行带有提取器的Indexify服务器。

打开两个新终端，运行以下命令：

终端1

./indexify server -d

终端2

indexify-extractor join-server

放入PDF

将以下代码放在文件名为 main.py 中并下载PDF：

fromindexify_extractor_sdk import load_extractor，Content
从pydantic import BaseModel

# PDF 提取器初始化
pdfextractor，pdfconfig_cls = load_extractor（“indexify_extractors.pdfextractor.pdf_extractor:PDFExtractor”）

# 从 PDF 文件中提取内容
content = Content.from_file（“BalanceSheet.pdf”）
config = pdfconfig_cls（）

pdf_result = pdfextractor.extract（content，config）

# PDF 中存在的文本内容
text_content = next（content.data.decode（‘utf-8’）for content in pdf_result if content.content_type == ‘text/plain’）

# 定义模式
class Invoice（BaseModel）：
year：int
captial_deposit：int
total_liability：int
total_assests：int
ratio_of_assests_by_liabilities：float
bills_collection：int
increase_in_deposites_from_2021_to_2022：float

schema = Invoice.model_json_schema()

client = IndexifyClient()

withdrawal_graph_spec = f"“”
name: ‘pdf_schema_extractor’
withdrawal_policies:

extractor: ‘tensorlake/marker’
name: ‘pdf_to_text’
extractor: ‘tensorlake/schema’
name: ‘text_to_schema’
input_params:
service: ‘openai’
model_name: ‘gpt-3.5-turbo’
key: ‘YOUR_OPENAI_API_KEY’
schema_config: {schema}
additional_messages: ‘根据此模式提取 JSON 中的信息并仅返回输出。’
content_source: ‘pdf_to_text’
“”"

withdrawal_graph = ExtractionGraph.from_yaml(extraction_graph_spec)
result = client.create_extraction_graph(extraction_graph)
llm_content = next (content.data.decode( “utf-8” ) for content in result if content.content_type == “text/plain” )

# 输出所有提取的属性
print (llm_content)

将 YOUR_OPENAI_API_KEY 替换为你的实际大模型 API密钥。

现在你已经准备好从PDF中提取结构化数据了。

提取数据

激活由Indexify创建的默认虚拟环境来管理依赖项和防止包冲突。使用以下代码激活环境：

source ~/.indexify-extractors/ve/bin/activate

现在运行包含所有上述代码的 main.py

python3 main.py

输出将以结构化JSON格式显示，如下所示：

{ ``  “年份”：2022 年，`  `“总收入”：15592517400，`  `“总负债”：20685350503，`  `“总资产”：20685350503，`  `“资产负债率”：1，`  `“应收账款”：569680463，`  `“从 2021 年到 2022 年的存款增加”：2423670192` `}

现在我们已经从PDF中提取了结构化数据，可以将这些提取的数据通过API集成到数据库中进行进一步处理。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述