JanusGraph
文章平均质量分 90
图特摩斯科技
数据库方向-图数仓的发明者,时序、多维、异构、动态+静态知识图谱数据库AbutionGraph发明者。
展开
-
图数据库AbutionGraph的15类60种OLAP图计算图挖掘算法-[构建史上最全的图算法库]
在AbutionGCS中,我们实现了15种算法类型的60多种图挖掘算法,是目前已知公开的最丰富的图挖掘算法库,在AbutionGCS中,主要的功能点包括:实现了存储与计算的分离;支持算法提交时自定义使用CPU内核数量和最大分布式内存空间;两种运行方式,图数据中台接口和开发者模式的嵌入式代码;支持HTTP一键调用、Job任务机制、可视化web任务状态监控;支持二次开发,算法工具化,多种算法结合应用;将AbutionDB图数据与关系型数据表无缝转换;从图谱关系中直接生成子图;计算结果保存图库原创 2021-03-07 14:21:41 · 2653 阅读 · 3 评论 -
图数据库AbutionGraph的毫秒级大数据精确去重方案-RoaringBitmap的妙用
AbutionGraph是第一款OLAP实时图数据仓库,可以高效率的满足更多难点问题。基数统计(不重复计数)是一个经典问题,AbutionGraph将其做到了极致的性能:查询响应速度提升几个量级,计算数据量级提升几个数量级,占用存储空间比存储原始集合少几个量级,总的来说,在几百亿的知识图谱数据上,使用AbutionGraph的高基数实时预计算存储技术,使得基数统计(可类比为degree基数)分析时效性提高到了毫秒级。譬如获知“张三”去年和今年都联系过的人有哪些,我们不用像以前把“张三”两年的数据都查出来原创 2021-02-18 13:15:59 · 884 阅读 · 0 评论 -
AbutionGraph万亿数量毫秒级出入度基数统计算法-1.5K内存存储十亿统计数据
图数据仓库AbutionGraph的万亿数据出入度去重基数实时统计算法,毫秒级响应,不到1K内存,可存储数亿个统计数据。什么是基数?基数是指集合中不同值的数量。例如,在{ 4,3,6,2,2,6,4,3,6,2,2,3}的集合中,基数为4,不同的基数值为4、3、6、2。再如,与A相关的联系{A->B,A->C,A->D,A->B,A->C}中,A联系过哪些人?(B,C,D)改善现有数据库基数实现的理由基数统计具有广泛的应用范围,在数据库中非常重要..原创 2021-02-16 14:09:02 · 569 阅读 · 0 评论 -
「JanusGraph」图形数据库 - 技术选型调研
JanusGraph各组件版本兼容性匹配表JanusGraphJanusGraph提供多种后端存储和后端索引,使其能够更灵活的部署。本章介绍了几种可能的部署场景,以帮助解决这种灵活性带来的复杂性。在讨论部署场景之前,理解JanusGraph本身的角色定位和后端存储的角色定位是非常重要的。首先,应用程序与JanusGraph进行交互大多数情况下都是进行Gremlin遍历,然后,Jan...原创 2019-02-27 17:14:19 · 3528 阅读 · 0 评论 -
「JanusGraph与HugeGraph」图形数据库 - 技术选型-功能对比
Tinkerpop highlevel-archgremlin server: httpserver/websocket server接收标准的gremlin dsl语法,自身相当于一个计算节点,完成图的遍历,或者操作DML语言,操作底层OLTP图库。 gremlin traversal language:图的查询遍历语言及语言解释实现,类似sqlparser provider ...原创 2019-03-25 17:49:17 · 10327 阅读 · 1 评论 -
实现GraphX与GraphSON格式相互转换
摘要转换器实现了:1.根据用户输入的SparkContext,和文件路径,读取GraphSON格式文件,转换为GraphX所接受的graphRDD;2.用户输入GraphX的graphRDD,在指定文件路径输出GraphSON格式文件。相关版本Apache TinkerPop 3.3.3scala 2.11.8spark-graphx 2.11提示假设读者较为熟悉Graph...转载 2019-04-15 15:07:46 · 1733 阅读 · 0 评论 -
「JanusGraph-Gremlin」高级语法sack()局部数据结构
sack(麻袋)帮助人们更细致有效地解决问题在某些情况下,人们正在编写使用路径信息进行数据聚合的Gremlin遍历。通常,人们将使用path()然后再执行一些过滤以“减少”路径中的数据获得特定结果。不幸的是,这是低效的,因为路径计算是昂贵的,且是不可以合并的,计算全部路径再过滤相当耗资源和时间且笨拙。原理sack是相对于每个遍历者的局部数据结构,与aggregate()/st...原创 2019-04-24 10:00:50 · 1522 阅读 · 0 评论