在数据资产治理过程中 ,其中特别重要的是一项工程就是打通数据上下游的关系 ,并对其中的每一层次加上相应的类别,在这个过程中我们遇到对业务数据库进行分类的任务
目前的数据库不具备直接划分的依据和原则 ,需要整合下
找到每个库下面的所有的表 ,提取表的表名和表的注释 ,并进行数据分词
1.数据源目录划分:
使用的技术主要是莱文斯坦比率和图计算(igraph/networkx) ,
前者用来计算两个数据库之间的相似性,后者根据相似性计算社区群
2.目前的计算结果:
总共有数据库 2800个库
通过该算法可以把2300个库划分为44个大类 ,剩余500个库需要人工进行数据分类.