大佬，你还在头疼文本信息抽取？这个神器让 AI 帮你自动生成知识图谱！

程序猿李巡天

于 2025-03-02 10:45:00 发布

阅读量2.0k

点赞数 32

文章标签：人工智能知识图谱 excel 数据库机器学习 AIGC

本文链接：https://blog.csdn.net/m0_59235945/article/details/145939739

版权

今天给大家分享一个超实用的工具——kg-gen[1]，它能让你从任何文本中，用 AI 自动提取出知识图谱！是不是听起来就很酷？用后你会说真的很酷，而且人家还带研究论文[2]的，满满的学术+实践相结合呀。

我不知道你是不是也有这些烦恼？

平时工作中，我们经常会遇到各种各样的文本信息，比如：

• 一堆项目文档，看得头昏脑涨
• 长篇大论的新闻报道，抓不住重点
• 客服聊天记录，信息零散难整理

想要从这些文本里提取出关键信息，构建出清晰的知识网络，简直比登天还难！手动整理？太费时费力了！不整理？信息就都浪费了！

kg-gen：我感觉恰恰是你要找的文本信息处理救星！

别担心，现在有了 kg-gen，这些问题统统都能解决！它就像一个智能助手，能帮你把那些杂乱无章的文本，变成结构化的知识图谱。

什么是知识图谱？ 简单来说，就是把各种概念、实体以及它们之间的关系，用图的形式展现出来。有了它，你就能一眼看清信息之间的联系，再也不用在海量文本里迷失方向了！

kg-gen 有啥厉害之处？

• 啥文本都能处理： 不管是短文本、长文本，还是对话消息，kg-gen 都能轻松搞定。
• 支持多种 AI 模型： OpenAI、Ollama、Anthropic、Gemini……你想用哪个就用哪个！（当然，前提是你得有 API key ，当然 Ollama 当我没说）
• 结构化输出： 生成的知识图谱清清楚楚，实体、关系、边，一目了然。
• 还能帮你“去重”： 对于相似的实体和关系，kg-gen 还能帮你自动聚类，让图谱更简洁。

所以，怎么用 kg-gen？

说了这么多，到底怎么用呢？其实很简单，几行代码就能搞定！

安装：

pip install kg-gen

上手体验：

from kg_gen import KGGen      # 初始化 KGGen，可以根据需要配置模型、温度等参数   kg = KGGen(     model="openai/gpt-4o",  # 默认使用 openai/gpt-4o 模型     temperature=0.0,        # 默认温度为 0.0     api_key="YOUR_API_KEY"# 如果你设置了环境变量，这里也可以不填   )      # 例子 1：处理单条文本   text_input = "小明是小红的哥哥，小刚是小红的爸爸，小丽是小红的妈妈。"   graph_1 = kg.generate(     input_data=text_input,     context="家庭关系"# 可以给文本加个上下文，方便 AI 理解   )   print(graph_1)   # 输出：   # entities={'小明', '小刚', '小丽', '小红'}   # edges={'是哥哥', '是爸爸', '是妈妈'}   # relations={('小明', '是哥哥', '小红'),   #           ('小刚', '是爸爸', '小红'),   #           ('小丽', '是妈妈', '小红')}      # 例子 2：处理多条消息   messages = [     {"role": "user", "content": "法国的首都是哪里？"},     {"role": "assistant", "content": "法国的首都是巴黎。"}   ]   graph_3 = kg.generate(input_data=messages)   print(graph_3)   # 输出：   # entities={'巴黎', '法国'}   # edges={'首都'}   # relations={('法国', '首都', '巴黎')}

看，是不是超级简单？只需要把文本输入进去，kg-gen 就能自动帮你生成知识图谱！

当然，kg-gen 还有高级玩法

除了基本用法，kg-gen 还有一些高级功能，让你的知识图谱更上一层楼！

处理超长文本：

对于特别长的文本，我们可以用 chunk_size 参数，把它分成 ছোট块来处理，避免一次性输入太多内容导致 AI“消化不良”。

graph = kg.generate(     input_data=large_text,     chunk_size=5000  # 每 5000 个字符分成一块   )

实体/关系聚类：

有时候，不同的文本可能会用不同的说法来表达同一个意思。比如，“人工智能”和“AI”其实是同一个东西。kg-gen 的聚类功能，就能帮你把这些相似的实体或关系合并起来。

# 生成时直接聚类   graph = kg.generate(     input_data=text,     cluster=True,     context="可选的上下文信息"   )      # 或者，对已有的图谱进行聚类   clustered_graph = kg.cluster(     graph,     context="可选的上下文信息"   )

合并多个图谱：

如果你有多个来源的文本，想把它们生成的知识图谱合并起来，可以用 aggregate 方法：

graph1 = kg.generate(input_data=text1)   graph2 = kg.generate(input_data=text2)   combined_graph = kg.aggregate([graph1, graph2])

真的干货来了，原理揭秘：kg-gen 背后的大功臣

kg-gen 之所以这么强大，离不开它背后的两个“秘密武器”：

LiteLLM[3]： 这是一个轻量级的 LLM（大语言模型）库，让 kg-gen 能够方便地调用各种不同的 AI 模型。
DSPy[4]： 这是一个用于构建结构化输出的框架，确保 kg-gen 生成的知识图谱格式规范、清晰易懂。

下面这张图展示了 kg-gen 的工作流程：

类似工具大比拼

除了 kg-gen，市面上还有一些其他的知识图谱生成工具。下面我给大家做个简单的对比：

在这里插入图片描述

总的来说，kg-gen 是一个非常适合快速上手、灵活度高的知识图谱生成工具。如果你需要快速从文本中提取知识，又不想花太多时间去研究复杂的配置，那么 kg-gen 绝对是你的不二之选！

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述