数据资产 治理 目录划分

37 篇文章 0 订阅

在数据资产治理过程中 ,其中特别重要的是一项工程就是打通数据上下游的关系 ,并对其中的每一层次加上相应的类别,在这个过程中我们遇到对业务数据库进行分类的任务
目前的数据库不具备直接划分的依据和原则 ,需要整合下

找到每个库下面的所有的表 ,提取表的表名和表的注释 ,并进行数据分词

1.数据源目录划分:
使用的技术主要是莱文斯坦比率和图计算(igraph/networkx)  ,
前者用来计算两个数据库之间的相似性,后者根据相似性计算社区群
2.目前的计算结果:
总共有数据库 2800个库
通过该算法可以把2300个库划分为44个大类 ,剩余500个库需要人工进行数据分类.

 

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值