HugeGraph

HugeGraph体系结构

HugeGraph已经在GitHub上开源,项目地址是https://github.com/hugegraph。HugeGraph包含了10多个关联子项目,其中包括:

1. HugeGraph

HugeGraph子项目是HugeGraph项目的核心部分,包含Core、Backend、API等子模块。该模块实现了TinkerPop框 架接口,并提供Schema元数据管理,事务、缓存和序列化等功能。HugeGraph可以支持多种后端存储系统,用户可以根据实现需求灵活选择;另外通 过内置的HugeGraph-Server(简称为HugeServer)对外提供Restful API,该接口也可以接收Gremlin查询。

2. HugeGraph-Client

简称为HugeClient,提供了Rest API的客户端,用于连接HugeServer,目前实现Java版,其他语言用户可自行封装实现;

3. HugeGraph-Loader

简称为HugeLoader,是基于HugeClient的数据导入工具,可将普通JSON、CSV等文本数据转化为图的顶点和边并快速插入图数据库中;

4. HugeGraph-Studio

简称为HugeStudio,是HugeGraph的Web可视化工具,可用于执行Gremlin语句并将图的链接关系通过Web可视化呈现。

HugeGraph各组件之间的关系如图3所示:

图3 HugeGraph各组关系图

图3 HugeGraph各组关系图

4. HugeGraph的应用场景

百度安全每天需要处理大量的日志数据,并对数据进行挖掘分析以识别各种安全问题,HugeGraph为安全业务提供关联分析能力。HugeGraph在百度安全内部的应用场景非常广泛,包括网址安全检测、设备关系图谱和数据安全治理等。

4.1 网址安全检测

搜索是百度的核心业务之一,为保证用户访问的网站是安全的,我们需要对搜索引擎的每一个网页进行安全检测,以防止用户通过搜索引擎入口访问恶意网 站。在网址安全检测项目中,我们使用HugeGraph存储网站的基本信息包括域名Whois、IP和外链等,安全分析人员可以方便分析站点之间的关系。 另外从链接关系入手,结合PageRank等图挖掘算法可以发现网站链接异常行为,识别网络黑产业。据此我们发现了黑产利用运营商漏洞进行用户隐私窃取的 行为,也发现了虚拟点击和非法推广等非法行为,切实维护了网民的权益。

4.2 设备关系图谱

关联分析是威胁情报、黑产打击和案件溯源等业务所需要的核心能力,构建设备关系图谱,提供设备关联分析能力是黑产对抗所需要的核心能力。我们使用 HugeGraph存储手机号码、帐号ID、设备指纹等设备信息,通过ID-Mapping和关联分析,精确识别黑产作弊设备,并为业务风控提供细粒度的 反作弊策略。

4.3 威胁情报分析

在威胁情报处理方面,利用HugeGraph将恶意攻击记录、恶意IP、恶意域名、Whois信息、漏洞库、文件、邮件地址、杀软检测、开源情报等 信息结合构建威胁情报关系网,为风控业务和安全应急响应中心提供服务。另外在伪造设备识别、群控挖掘、自然人识别等方面,HugeGraph也发挥了很大 的作用。

4.4 安全数据治理

在安全领域之外之外,图数据库也可以应用在知识图谱、企业图谱、推荐系统、社交网络、IT运维等多种场景中应用。目前我们也将HugeGraph应 用到安全数据治理中项目中。我们将数据资产作为图数据库的顶点,将对数据资产的ETL处理作为图数据库的边,通过顶点和边的关联关系分析数据血缘,并在此 基础上实施安全数据治理策略。

图4 HugeGraph在数据治理中的应用

图4 HugeGraph在数据治理中的应用

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值