![ff1fe93c8b482c9300c6adc6074cef71.png](https://img-blog.csdnimg.cn/img_convert/ff1fe93c8b482c9300c6adc6074cef71.png)
今年有幸跟参与到Antv Graphin的共建组织中,并与山果同学一起做了Graphin FY21财年的产品规划。这篇文章主要根据Graphin规划内容重新思考图分析。
定位
既然聊到了图可视化分析,首先要讲清楚什么是图,什么是图分析。
图
![809aaa052297c0b2aca57ac81bf124c1.png](https://img-blog.csdnimg.cn/img_convert/809aaa052297c0b2aca57ac81bf124c1.png)
能读到这篇文章的同学相信之前都会对图有所了解。最早关于图论的探讨来自于欧拉大神解决的柯尼斯堡七桥问题, 这也开创了数学一个新分支-图论和几何拓扑学。下方引文中列出了维基百科中关于图的定义,即图是点边的集合:
A graph (sometimes called undirected graph for distinguishing from a directed graph, or simple graph for distinguishing from a multigraph) is a pair G = (V, E), where V is a set whose elements are called vertices (singular: vertex), and E is a set of two-sets (sets with two distinct elements) of vertices, whose elements are called edges (sometimes links or lines).
在实际图存储与图计算工程领域中,为了让图中携带更多信息,增加了一个 属性维度。图中节点和边都可以通过属性携带更多信息。
图分析
![ecd891dbbbe72f15d795548168775f71.png](https://img-blog.csdnimg.cn/img_convert/ecd891dbbbe72f15d795548168775f71.png)
图分析(即Graph Analysis), 简单讲是利用图去分析问题。比如上图的七桥问题就是通过图的拓扑结构去分析问题、可能大家还听过另外一个图分析的经典问题六度分隔理论,即世界上任何互不相识的两人,最多通过六个中间人就能够建立起联系。在数据分析领域,图分析是图存储、图计算、图可视化三者结合的产物, 图分析依赖图存储进行大规模图数据存储,依赖图计算的算法以及定制化的算法完成图问题分析,依赖图可视化完成图分析的呈现以及交互, 完整分析过程可以分为预分析、分析、后分析三个过程:
- 预分析:预分析过程主要包括数据获取,数据清洗,数据建模(关联), 数据导入,使数据具有的可分析性。这部分能力主要依托Graph引擎平台或者数据开发平台完成,本文不进行探讨。
- 分析:虽然图分析属于可视化的范畴,但是它与我们常见的可视化应用略有不同,它在讲求信息的可读性的同时,还会关注信息的分析性。一个优秀的图分析产品需要根据业务场景提供一些列的分析能力帮助用户在茫茫数据中完成问题的分析过程中,这些分析能力包含检索,布局,筛选,探查,定位等。
- 后分析: 既然是一个问题分析,那大部分场景下还是需要一个分析结论,这里的结论可能是图片、PDF、Excel、甚至具有一定交互性的APP。
本文后续章节主要关注图分析和图可视化结合部分。
机遇
![b08c814b9df4537a9a00be2047217a8e.png](https://img-blog.csdnimg.cn/img_convert/b08c814b9df4537a9a00be2047217a8e.png)
Gartner在2019年8月发布的 《2019年新兴技术成熟度》 中有两项技术跟图分析相关: Knowledge 和 Graph Analytics。在2020年的《十大数据分析技术趋》也将图数据分析列入数据分析十大趋势之一,并且预测到2022年之前图计算和图数据库将以每年100%的速度增长,并且图分析的商业化仍然处于早期阶段,特别的国内起步尚晚,仍有很大的机遇。
![023984f3b374bf4f35607b134db5c368.png](https://img-blog.csdnimg.cn/img_convert/023984f3b374bf4f35607b134db5c368.png)
图分析特别是图可视化玩法多样:
- 可以与图数据库,如Graph Compute, GeaBase, TigerGraph, Neo4j等结合, 赋予图数据库通用性数据分析能力,降低开发者的使用成本和理解成本。如Graph Compute的Graph Compute Analyser, TiggerGraph 以及Neo4j都有提供类似的功能;
- 再结合图计算的算法分析能力,能发展处通用知识图谱平台,I+关系网络分析这样的通用分析平台;