Harnessing GraphRAG for Cybersecurit
by Rafa Lachmish,PM @Wib (Acquired by F5) | GenAI | Cybersecurity | Startups | Growth & Kindness is everything 2024年7月10日
应对网络安全中的数据过载
数字信息的快速增长给网络安全专业人士和技术爱好者带来了重大挑战。随着从事件报告、威胁情报源到系统日志的大规模文本语料库成为常态,从这些庞大数据集中提炼相关洞察的任务变得异常艰巨。传统方法,包括手动分析甚至一些自动化工具,难以跟上这种快速变化,常常遗漏重要的联系或无法提供全面的概述。这在网络安全中尤其成问题,因为及时和准确的信息对于减轻威胁和保护资产至关重要。
主要问题在于不仅能够检索相关信息,还能够将其综合成有意义、可操作的情报。检索增强生成(RAG)方法通过使大型语言模型(LLM)能够获取和利用相关数据显示出了希望。然而,这些方法通常擅长于局部查询,而不是处理跨整个数据集的广泛复杂问题,例如识别整体主题或从各种来源提取多方面的洞察。
检索增强生成(RAG)方法已经显示出前景,通过使大型语言模型(LLM)能够获取和利用相关数据。
介绍GraphRAG:数据合成的突破
最近,GraphRAG在GitHub上发布 [重磅 - 微软官宣正式在GitHub开源GraphRAG],提供比简单RAG方法更结构化的信息检索和全面的响应生成。GraphRAG代码库还附带一个解决方案加速器,提供易于使用的API体验,托管在Azure上,可以在几次点击中无代码部署。
GraphRAG将RAG的优势与基于图的索引和摘要相结合,通过解决检索增强生成和查询聚焦摘要(QFS)在处理大量文本语料时的固有限制而脱颖而出。
GraphRAG结合了RAG的优势与基于图的索引和摘要,通过解决检索增强生成和以查询为中心的摘要在处理大量文本语料时的固有局限性而脱颖而出
GraphRAG通过多阶段过程进行操作
-
文本分块和提取:源文档被分割成可管理的文本块。这些块随后由大型语言模型处理,以识别和提取实体、关系及其他相关元素。
-
图谱构建:提取的元素用于构建基于图的索引。该索引将实体表示为节点,将它们的关系表示为边,形成一个综合知识图谱。
-
社区检测:采用诸如莱顿等高级算法将图划分为模块化社区。这些社区将密切相关的实体分组,确保总结过程能够集中在高度相关的信息集群上。
-
摘要和查询响应:生成社区摘要,捕捉每个集群的本质。当提出查询时,这些摘要被用于生成部分响应,然后合成最终的、连贯的答案。
这种方法确保即使是全局查询,也能够全面准确地回答,这些查询需要对整个数据集的理解。图的模块化和层级性质允许高效处理和总结,克服了传统方法的局限性。
网络安全中的变革性应用
网络安全专家可以利用GraphRAG从多个来源聚合和总结威胁情报。例如,识别重复出现的攻击模式、关键威胁参与者以及各类报告中新出现的漏洞变得显著更加可管理。
在网络安全领域,GraphRAG的能力可以具有变革性。
以下是一些关键应用:
-
增强威胁情报分析:网络安全专家可以利用GraphRAG聚合和总结来自多个来源的威胁情报。例如,识别重复的攻击模式、主要威胁参与者和各种报告中出现的新漏洞变得显著更易于管理。
-
加速事件响应和取证:在事件发生时,快速准确的信息综合至关重要。GraphRAG可以通过总结日志、警报和其他取证数据来帮助创建事件的全面概述,为响应人员提供可操作的见解,以迅速缓解威胁。
-
简化合规性和政策管理:确保遵守网络安全政策和法规通常需要分析大量文件。GraphRAG可以帮助总结合规报告,突出关键问题领域,并根据全面的数据分析提出改进建议。
结论
GraphRAG在信息检索和摘要领域代表了一项重要进展,为网络安全专业人士面临的挑战提供了强有力的解决方案。通过将图形索引的精确性与大型语言模型的生成能力相结合,GraphRAG提供了一种可扩展、高效且全面的工具,用于从大量文本语料中提取可操作的情报。这项创新有望增强决策能力,提高事件响应时间,并加强整体网络安全态势。
对于那些希望探索GraphRAG全部潜力的人,GitHub上提供了一个开源的基于Python的实现。
通过理解和利用GraphRAG,网络安全专家和科技爱好者可以显著提升他们在不断增长的信息海洋中导航和理解的能力,最终实现更加安全和具有韧性的数字环境。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。