使用大模型从政府公文中抽取指标数据

jieshenai

已于 2024-08-14 23:59:00 修改

阅读量371

点赞数 17

分类专栏：大模型文章标签：自然语言处理 langchain 深度学习

于 2024-08-14 23:44:51 首次发布

本文链接：https://blog.csdn.net/sjxgghg/article/details/141201665

版权

大模型专栏收录该内容

19 篇文章 9 订阅

订阅专栏

文章目录

介绍

本文使用LangChain 结合 Ollama的qwen2:7b模型，抽取出全国市级单位每一年预期生产总值指标。

Ollama的qwen2:7b，显存占用只有5G左右，适合大多数消费级显卡运行。

流程结构介绍

从相关政府工作报告的文本中，筛选出包含目标信息的句子；
提示工程，使用few-shot提示，通过几个例子，定义模型的输出格式；
大模型的输出结果插入到pandas的DataFrame中，后续转成excel；

大模型 few-shot

虽然目标句子中含有很明显的经济指标性数据，不建议使用正则表达式进行识别。
因为有的文本表述变化很大，正则表达式很难识别出来。直接让大模型进行信息抽取很方便。

在拿到包含有目标信息的句子后。使用提示词告诉大模型要抽取值和应该返回的格式。

提示词如下所示：

prompt = """
参考下述例子，生成相应的回答，请你从中提取出今年生产总值的预期增长值是多少？
按照下述提供的json格式返回结果。

Input: 孝感市1894年文件节选：主要预期目标是：全市生产总值增长10％以上
Output: {"city":"孝感市", "year":"1894", "GDP_growth":"10%"}

Input: 上海市1895年文件节选：初步核算，全市生产总值比上年增长１１．１％，规模以上工业增加值增长２１．７％，全社会固定资产投资增长２２．６％，社会消费品零售总额增长１３．７％，地方一般预算收入增长１８．１％，实际利用外资增长１２．４％，外贸出口增长２８．４％，城镇居民人均可支配收入增长１０．１％，农民人均纯收入增长１０．２％，年初确定的主要预期目标和各项工作任务全面超额完成\n今年经济社会发展的主要预期目标是：生产总值增长１２％，全社会固定资产投资增长２０％，'
Output: {"city":"上海市", "year":"1895", "GDP_growth":"12%"}

Input: {filename}年文件节选：{content}
Output: 
""".strip()

给了两个Input和Output示例，供大模型去学习与参考模型的结构化输出。使用例子对大模型进行提示的方法称为 few-shot。

大模型

使用本地的Ollama qwen2大模型进行实验，这个大模型的推理速度大概每秒处理1.6条数据，显存只占用5G。
因为本地有6千份文本进行抽取，故选择的本地大模型，本地推理速度更快一点。当然 gpt-4o-mini 准确率更高，虽然其收费不贵，但是网络延时太大。

若要追求更快的速度，使用llamafactory通过vllm部署qwen2:7B，推理速度可以更快。我的显存48G，3090性能级别的显卡，按照往常的速度大概可以达到每秒推理15条数据，速度提升还是很明显的。

虽然llamafactory vllm部署不算麻烦，而且速度更快，(勤快人推荐用这个)；
Ollama不用部署模型，使用简单一点，挂一下机等着出结果（开奖）✌️。

from langchain_community.llms import Ollama
llm =  Ollama(model="qwen2:7b", temperature=0)

本工作使用的 few-shot 在一定程度上是为了实现大模型的结构化输出。
其实OpenAI 在本月已经支持结构化，若没有大量文本推理的需求，选择gpt-4o-mini 是一个不错的选择，而且价格非常便宜，一次调用大概$0.000102左右，参考教程如下：How to return structured data from a model, https://python.langchain.com/v0.2/docs/how_to/structured_output/

在OpenAI 宣布支持支持结构化输出后，当时看到LangChain在第一时间对其进行了支持，看得出来都挺能卷的。

在这里插入图片描述

抽取结果

在全国所有市级单位，从2000年开始抽取出6000条数据。
在这里插入图片描述

虽然qwen2这个小模型的效果没有那么的强，但从它返回的结果来看，本人还是挺满意的。其中大模型的思考过程，体现出来了。
比如，下述是商丘市2011年的政府工作报告节选，在其中它没有提到要增长多少，只说要高于全省平均水平：

今年经济社会发展主要预期目标是：生产总值增速高于全省平均水平1到2个百分点，
财政一般预算收入增速高于生产总值增速2个百分点，全社会固定资产投资增长20％，
社会消费品零售总额增长17％，外贸出口增长21％，实际利用外商直接投资增长22％，
居民消费价格涨幅控制在4％左右，人口自然增长率控制在6．5％以内，
新增城镇就业人员5．6万人，农民人均纯收入增长9％，城镇居民人均可支配收入增长9％，
节能减排完成省定目标。

大模型的输出结果是：生产总值增速高于全省平均水平1到2个百分点。这就是最优的回答。我并没有给大模型相关的提示，它能主动做到这一点，其实就很厉害了。

在这里插入图片描述

jieshenai

关注

17
点赞
踩
17

收藏

觉得还不错? 一键收藏
打赏
0
评论
使用大模型从政府公文中抽取指标数据

本文介绍了利用LangChain结合Ollama的qwen2:7b模型，从政府工作报告中高效提取全国市级单位年度生产总值增长指标。通过精准文本筛选、few-shot提示和结构化输出，实现了快速准确的数据抽取。实验表明，qwen2模型虽小但性能优异，展现出大模型在自然语言处理中的强大能力。同时，文章还对比了不同模型的优劣势，提供了一些优化建议。
复制链接

扫一扫