基于大模型的知识库构建平台（非常详细）零基础入门到精通，收藏这一篇就够了

Python_chichi

于 2024-07-25 13:54:18 发布

阅读量1k

点赞数 30

分类专栏：程序员大模型 web安全文章标签：数据挖掘语音识别计算机视觉

本文链接：https://blog.csdn.net/Javachichi/article/details/140688068

版权

程序员同时被 3 个专栏收录

674 篇文章 36 订阅

订阅专栏

web安全

210 篇文章 3 订阅

订阅专栏

大模型

50 篇文章 0 订阅

订阅专栏

自2022年11月30日ChatGPT发布以来，人工智能大模型应用快速发展，以ChatGPT为代表的生成式AI引发了新一轮科技浪潮，国内外多家企业相继推出大模型产品和相关应用。同时，ChatGPT的出现也引发了各行各业对于人工智能在本行业应用前景的广泛讨论和探索。其中金融科技行业由于数据要素富集，数据价值密度高，数据应用基础深厚等特点，在生成式AI上的应用场景特别广泛，成为最关注大模型的行业之一。大型生成式AI模型能够高效处理和分析数据，为金融行业带来风险管理优化、个性化服务及运营效率提升，是推动金融行业未来创新与发展的必需工具。

光大科技采用柔性团队方式，依托公司云平台对自然语言处理技术应用于金融领域持续开展探索与研究。ChatGPT发布后，团队进一步针对大模型应用于金融领域的可行性和路径进行了探索。目前基于大模型的金融应用主要场景之一是光大知识库构建平台，其通过处理包括各类非结构化文本语料，如财经新闻、上市公司业绩快报、项目建设信息、金融机构被处罚信息等，对非结构化数据进行结构化处理，包括抽取其中关键信息，构建主体关系等。未来还将根据大模型能力变化，进一步扩展到图片、视频等多媒体内容。

光大知识库构建平台全貌

光大知识库构建平台利用人工智能大模型知识广泛、数据处理能力强等优势，同时结合金融领域文本数据特色进行知识抽取最终赋能于各类金融系统。图1是光大知识库构建平台系统架构图，目前该平台以知识服务为目标，将数据采集、底层模型、知识校验以及知识存储等知识组织过程，有条不紊地串联打通，形成一个不断改进和循环的知识构建和服务链条。

     ![](https://mmbiz.qpic.cn/mmbiz_png/6pyBLyoC62Z21h0PSGZS7ao1LEpJpvm32wEialUkzVVzRlqG9srjSFmFPOJxgSiazbvLQia4vPaGF2Aia5q8Zicn2GQ/640?wx_fmt=png)

图 1 光大知识库构建平台系统架构图

基于此打造的金融应用更具智慧，以更好地服务于光大集团内部各类系统。其核心技术主要在于通过人工智能大模型提升光大知识库构建平台自动化知识抽取水平，**将金融数据转化为金融领域知识，让金融数据发挥其真正的价值。**光大知识库构建平台能够将分散的、不同来源的数据转化为清晰准确的结构化知识，实现知识共享，形成综合知识集合，赋能各类业务场景。

光大知识库构建平台模块介绍

1、整体介绍

数据采集模块为平台的数据源引入部分，主要由外部数据采集以及内部数据采集构成。

底层模型模块是平台的数据处理核心所在，目前使用的大模型均为国产开源大模型，并通过将大模型进行本地部署使得数据安全可控。通过各种形式Prompt（Prompt意为提示词或引导词，用以描述在AI模型中输入的起始语句或问题，以引导模型进行相关的回答或生成特定内容）（离散、连续）充分挖掘模型在特定任务上的能力。同时实现Prompt评测优化、入库以及管理。最终使得底层各个任务模块效果更优。

知识校验模块负责对功能模块输出的知识进行验证，进一步保证输出知识的准确性。知识校验设计根据不同知识特性针对性选择校验方案，如规则校验、基于神经网络模型的自动校验等；再对校验方案进行验证，保证校验方案高效稳定可靠；知识校验管理实现校验的动态开发与管理。

知识存储模块包含知识标准化、知识分类、知识入库以及知识管理。该模块保证知识存储标准与光大集团数据质量标准一致，以便接入集团内部金融类系统。同时对知识进行分类入库便于知识管理，从而为更多的金融应用场景提供更精确且完整的知识。

2、底层模型应用

如上述所言，底层模型模块是平台的数据处理核心所在，主要包含两大部分：Prompt部分和大模型部分，最终两者相辅相成共同完成数据处理。其中Prompt可以分为人工制定和自动搜索两类，自动搜索按照Prompt形式又分为离散和连续两种。目前采用人工和自动搜索相结合方式，如直接提问式Prompt、情景假设式Prompt、给出示例式Prompt等，其效果在各个大模型上均表现良好。

大模型目前使用主流的国产开源模型，其中参数Temperature通常用于调整softmax函数的输出。在softmax算法中，Temperature参数用于调整生成结果的熵值。熵是信息论中用于表示信息不确定性的一种量度，如果熵值越高，表示结果的不确定性也就越大。Temperature参数通过控制生成结果的熵值，可以使结果更加多样化或更具确定性。Top P 参数是指在生成文本等任务中，选择可能性最高的前 P 个词的概率累加和。这个参数被称为 Top P，也称为Nucleus Sampling。例如，如果将 Top P 参数设置为 0.8，那么模型会选择可能性排名超过 80% 的词进行采样。这样可以保证生成的文本准确性较高，但可能会缺乏多样性。相反，如果将 Top P 参数设置为 0.2，则会选择可能性超过 20% 的词进行采样，这可能会导致生成文本的准确性下降，但能够更好地增加多样性。上述两个参数的取值范围均在0到1之间，经过数次探索与尝试，在目前已有知识抽取需求的任务中Temperature取值一般在0.8到0.95之间（不同任务会进行微调），Top P取值一般在0.75到0.85之间（不同任务会进行微调），两者在上述范围内表现良好。

3、Prompt流程设计

为了让Prompt设计过程更直观，以下以“给出示例式”Prompt为例对其设计过程进行简单阐述。如图2所示，“给出示例式”Prompt主要由三部分组成：示例、问题、新文本（需处理文本）；而示例由问题、示例文本、示例结果组成，其中此处文本与结果来自训练集（若面对任务有公开数据集）或人工标注（若面对任务无公开数据集），注意此处人工标注只需标注少量样本即可。上述各个部分具体示例如图2所示，两个“问题”部分需保持一致，具体示例如图3所示，为了保证输出结果的一致性和通用性，“问题”中增加了具体需求如输出格式（如json格式）。“示例文本”具体示例如图4所示、“示例结果”具体示例如图5所示，两者分别是当前任务文本以及当前任务理想结果；注意“给出示例式”Prompt可拥有多个“示例”部分，但数量需根据所使用大模型输入长度限制，过长的输入文本会影响大模型文本处理效果。“新文本”具体示例如图6所示，其为当前任务所需处理文本，此处是自动检索数据集填充至整体Prompt中。

图 2 “给出示例式”Prompt构成图及对应示例

     ![](https://mmbiz.qpic.cn/mmbiz_png/6pyBLyoC62Z21h0PSGZS7ao1LEpJpvm3icg0Nch5rfhA8GsuSB19MOZblyLNAzltPc7TXGVaRXEAGLsuLcd4dsg/640?wx_fmt=png)

图 3 “给出示例式”Prompt --“问题”具体示例

图 4 “给出示例式”Prompt --“示例文本”具体示例

图 5 “给出示例式”Prompt --“示例结果”具体示例

图 6 “给出示例式”Prompt --“新文本”具体示例

当然，Prompt设计不是一蹴而就的，需要对效果进行评测查看是否达标如图7。这个过程往往需要经过多次调整，同时还需要调整大模型参数Temperature和Top P直至模型效果在当前任务中达到最佳。其中测评方法可分为自动测评和人工测评，前者主要针对当前任务有公开可用数据集可用于效果测评，后者针对当前任务无公开可用数据集用于效果测评。测评指标使用精确率、召回率、F1值，精确率又称查准率代表对正样本结果的预测准确程度，召回率又称查全率代表了分类器对实际为正样本的识别能力。F1值是精确率和召回率的调和平均数，是两者的综合指标。

图 7 Prompt设计与调整模型参数流程图

4、应用成果展示

以下以信息抽取为例展示系统的输入输出流程。图8为采集的原始数据（如新闻资讯、业绩快报等）通过底层模型模块处理为结构化知识样例，即底层模块的输入输出样例。除了关系型数据库存储方式还能以图数据库方式存储，示意图如图 9。基于结构化的知识可进一步对其进行知识挖掘、推理，最终赋能集团各项金融类系统。

图 8 光大知识库信息抽取输入输出示例

图 9 结构化知识图谱呈现示例

目前平台可对不同数据来源进行重点信息抽取，同时支持多种模型切换，可进行答案对比择优。传统抽取方式对于所处理文本本身有要求如只能处理非结构化文本，而大模型不仅可处理非接结构化文本也可处理结构化和非结构化的混合文本，可直接将因未定义采集数据结构标准而引发的结构化文本混乱还原为结构化状态，甚至可比原有结构化设计更为合理。平台在拥有较强的通用能力的同时，还可针对性解决金融领域的特定场景问题。

5、未来展望

由于金融行业在数据安全、风险控制、数据精度、数据实时性等方面要求较高，使得通用大模型缺乏金融领域的训练数据集，从而导致对金融常识、生成的可控性和准确性都达不到这个行业的最低要求。因此需要依靠更加专业的背景和行业洞察去优化与适配特定的需求，以便在发挥模型效力的同时保证准确性和可解释性等。

随着光大知识库平台大模型技术日益成熟，未来会有四个典型金融场景可能会率先普及这项新技术，首先，在智能营销方面，该平台可以深度解析客户数据和行为模式，精准地进行客户细分和个性化推荐，进而优化营销策略和提升转化率。其次，主要涉及到智能风控，该技术可以帮助机构更加深入地识别和预测潜在的风险因素，包括信贷风险和市场风险，从而更有针对性地进行风险防控和应对。在智能管理领域，它能够辅助企业实现更高效的业务流程和决策制定，实现企业资源的智能配置和运营优化。最后，在监管合规方面，该平台可以高效地协助金融机构遵循各种法律法规和行业标准，通过智能化的合规检查和预警，显著减少人工负担和错误率，提升企业合规水平。

此外，金控集团在近几年面临着国内外日益复杂和严重的风险局势，这要求其不断强化整体风险管理水准。借助大型模型的卓越文本处理能力，金控集团可以迅速捕获并了解外部监管政策信息和行业金融风险，从而为集团及其子机构在风险防控方面提供有力支持。其次，金控公司下属的各类机构，例如银行、证券、保险、信托等行业监管也是不断趋严，基于大模型的金融风险防控可快速适应具体金控行业场景。金融行业是高价值行业，数字化基础好，高度依赖数据和技术，未来与大模型结合将会更加紧密。大模型强大的处理能力以及泛化能力必将助力金控集团及其子公司加快自身的数字化和智能化进程，跨越数字化鸿沟。

相信在不久的将来，随着人工智能、大模型技术不断进步，基于大模型的知识库平台和其他各类大模型应用定将在金融领域发挥更大的作用，助力企业和行业开创更美好的未来。

AI大模型学习福利

作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

因篇幅有限，仅展示部分资料，需要点击下方链接即可前往获取

2024最新版CSDN大礼包：《AGI大模型学习资源包》免费分享

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

因篇幅有限，仅展示部分资料，需要点击下方链接即可前往获取

2024最新版CSDN大礼包：《AGI大模型学习资源包》免费分享

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

因篇幅有限，仅展示部分资料，需要点击下方链接即可前往获取

2024最新版CSDN大礼包：《AGI大模型学习资源包》免费分享

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

因篇幅有限，仅展示部分资料，需要点击下方链接即可前往获取

2024最新版CSDN大礼包：《AGI大模型学习资源包》免费分享

四、AI大模型商业化落地方案

因篇幅有限，仅展示部分资料，需要点击下方链接即可前往获取

2024最新版CSDN大礼包：《AGI大模型学习资源包》免费分享

作为普通人，入局大模型时代需要持续学习和实践，不断提高自己的技能和认知水平，同时也需要有责任感和伦理意识，为人工智能的健康发展贡献力量。

Python_chichi

关注

30
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
基于大模型的知识库构建平台（非常详细）零基础入门到精通，收藏这一篇就够了

数据采集模块为平台的数据源引入部分，主要由外部数据采集以及内部数据采集构成。底层模型模块是平台的数据处理核心所在，目前使用的大模型均为国产开源大模型，并通过将大模型进行本地部署使得数据安全可控。通过各种形式Prompt（Prompt意为提示词或引导词，用以描述在AI模型中输入的起始语句或问题，以引导模型进行相关的回答或生成特定内容）（离散、连续）充分挖掘模型在特定任务上的能力。同时实现Prompt评测优化、入库以及管理。最终使得底层各个任务模块效果更优。
复制链接

扫一扫

专栏目录