数据治理之标签管理(五)-标签功能需求

1 标签分类

用户可自定义标签分类,分类层次动态制定。同时,标签分类支持按模版批量导入和单条录入功能。批量导入暂不考虑数据校验,由用户自行定义。
标签分类的属性如下:

  • 标签分类编号:用户自定义,但满足一定的规则
  • 标签分类名称:用户自定义
  • 标签分类类型:主题,层次
  • 标签分类上级编号
  • 标签分类编码规则

注:后续可根据编码规则和标签分类名称对标签的相似性进行判断。

2 标签定义

2.1 标签基础配置

  • 标签对象:标签所属的对象,如企业主体、用户、项目等
  • 标签名称:用户自定义
  • 标签英文名称:用户自定义。尽量保持与标签所在的表字段名称一致
  • 标签类型:单选按钮。属性值包含基础标签,衍生标签,组合标签
    注:衍生标签是由多个基础标签再计算而获得的
  • 标签所属分类:可直接选择在“标签分类”模块配置的数据,支持分类查询后选择。
  • 标签简介:文本框,用户自定义对标签进行业务描述
  • 标签生效/失效时间:用户可自定义标签生效时间和标签失效时间,格式YYYY-MM-DD。系统可根据生效和失效时间自动生成标签当前的状态:有效/无效
  • 标签取值:标签取值可在数据标准管理中进行定义,若在数据标准中定义则直接从数据标准中获取;或数据标准中未定义,则用户可以手工录入

2.2 标签详细配置

  • 标签更新周期:日、月、季、年
  • 来源信息:指生成该标签要使用的相关数据,包含来源库(依赖库)、来源对象(依赖表)、来源字段(依赖字段)、字段筛选条件。支持选择一组或多组依赖信息。若有多张表关联生成,则需要选择哪张表作为主表。
  • 目标信息:指该标签存储到的物理环境信息,包含目标库、目标表、目标字段

3 标签生产

3.1 标签加工规则

  • 标签数据类型:布尔型、枚举型、文本型
  • 标签对象字段:从主表中选择对象字段
  • 标签类型
    (1)布尔型
    (2)枚举型
    (3)文本型
  • 标签加工方式:
    (1)规则配置实现:通选择来源表中字段并判断条件,得出其对应的标签值
    (2) SQL脚本配置实现:直接写出生成标签的处理逻辑SQL
    (3)调用python脚本实现:调用python脚本运行算法,返回值

3.2 标签试运算

在开发过程中,通过选择对象和标签,可以运行标签计算规则。同时,运行过程有记录日志。最后按标签值域范围统计显示运行结果。

4 标签查询

4.1标签列表

标签列表页,主要涉及的功能模块有:

  • 标签目录检索:根据标签分类体系作为检索的条件查询标签信息
  • 标签关键词检索:用户通过搜索的“关键词”的方式直接找到标签
  • 标签列表:呈现检索或者搜索后的标签列表,列表可呈现必要标签信息,包含但不限于:标签中文名称,标签英文名称,标签分类,标签状态,标签引用次数,标签使用次数
  • 标签排序:按照关键数据进行标签的排序,如标签的引用次数或标签使用次数

4.2 标签详情页

  • 标签名称
  • 标签分类
  • 标签介绍
  • 标签生效时间
  • 标签失效时间
  • 标签取值
  • 标签所属表名
  • 标签所属字段
  • 标签更新周期
  • 标签开发负责人

4.3 标签血缘信息

展示标签来源的表中文名称和字段,只展示一级

4.4 标签应用信息

如记录标签应用信息,则可以展现应用信息情况

  • 应用系统
  • 应用场景说明以上属性需要在订阅或申请使用标签的时候用户进行填写

4.5 标签值域信息

用饼图展示标签值域分析情况

5 标签评估

5.1 标签使用度评估

标签使用度,用以评估标签被分析、外部系统的使用情况。

  • 标签引用:如基础标签被衍生标签应用、衍生标签被组合标签引用等,基于该场景,计算“标签引用次数”指标
  • 标签分析:标签在自助分析、报表分析等功能中被分析使用的情况,计算“标签分析次数”指标
  • 标签调用:标签通过数据API被外部应用查询的次数,计算“标签调用次数”指标基于以上3个指标,我们首先采用Sigmoid函数将指标转化为评分,再将各个指标的评分加权汇总成标签使用度评分。

5.2 标签关注度

评估标签关注度,用以评估被搜索、查看、收藏的情况。

  • 标签搜索:标签在平台中被用户搜索的情况,计算“标签搜索次数”指标。
  • 标签查看:标签被点击查看基础信息、分析页面等的次数,计算“标签查看次数”指标。
  • 标签收藏:收藏该标签的用户数,计算“收藏用户数”指标。
    以上3个指标可反映标签的关注热度,我们依然采用Sigmoid函数将指标转化为评分,再将各个指标的评分加权汇总成标签关注度评分。

5.3 标签质量评分

标签质量,用以评估对象被打标情况,反映标签规则的合理性。
当定义了标签和标签值,经过计算之后,标签值打在对象上的很少,那说明规则执行不合理。比如定义了“企业类型”这个标签,分为“大型、中型、小型、微型”等,但真实被打上的这个标签的企业,低于70%,还有很大一部分比例是空值,未打上该标签,说明制定的标签值规则有漏洞,需要完善。
系统将计算每个标签的“标签覆盖度”,将覆盖度归一化为分数,转化成评分。

5.4 持续优化度评分

持续优化度,用以评估标签上线后,是否后续再去优化该标签。
在业务运行过程中,我们需要不断根据业务调整、客户变化调整我们的标签策略,以追求可通过标签直接地、迅速地反映客户情况,指导业务运营。
持续优化度,通过“标签优化次数”指标来评估,指标签上线后标签被编辑再次发布的次数。同样采用Sigmoid函数将指标转化为评分。

5.5 安全度评分

标签安全度,不能反映标签的热度,但也将其作为了标签评分的一个维度,可根据实际情况考虑是否纳入。
标签安全相关的策略有:

  • 标签的可见度:标签可编辑、可查看的用户范围。
  • 标签使用是否需要申请授权:标签发布后,其他人使用该标签,是否需要申请审批。
  • 标签是否进行行级权限控制:上面我们控制了标签的列权限,行级权限反映该标签是否设置了行级权限。
  • 标签是否脱敏:标签是否进行脱敏。
    根据标签的安全度策略配置情况,采用评分的方式来评估。

基于以上5个维度的评分,我们根据前面提的公式加权汇总,得到总评分。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据治理是一种管理和控制数据资源的过程,而MECE标签体系则是一种组织和分类信息的方法。 MECE(Mutually Exclusive and Collectively Exhaustive)是在数据治理领域中常用的一个原则,意味着所设计的标签体系应该是互斥和穷尽的。互斥意味着不同的标签之间不能有重叠或者重复的部分,每个数据元素只能属于一个标签。穷尽意味着标签体系中的所有分类都能覆盖所管理的数据元素,没有遗漏的部分。 MECE标签体系在数据治理中的应用有以下几个好处: 首先,MECE标签体系能提供一个清晰而严谨的数据分类方法。通过使用MECE原则,可以确保标签体系中的每一个标签都是相互独立且互不冲突的,这样就避免了对数据进行重复或者混乱的分类。同时,由于标签体系是穷尽的,可以确保每个数据元素都能被正确地分类,提高了数据的质量和准确性。 其次,MECE标签体系能够为数据的查找和检索提供有效的支持。通过合理地组织和分类数据,可以帮助用户更快地找到他们所需要的信息。MECE标签体系可以将数据按照不同的维度和属性进行分类,使得用户可以根据自己的需求和关注点进行查询和过滤。 最后,MECE标签体系还可以为数据分析和决策提供更好的基础。一个合理的标签体系可以帮助数据分析师更好地理解和解释数据,找到数据之间的相互关联和共享之处。通过对标签体系进行深入的数据挖掘和分析,可以获得更有价值的洞察和结论,从而支持业务决策和规划。 综上所述,MECE标签体系是数据治理中一种重要的组织和分类方法,它能够保证数据的清晰性、准确性和可用性,提供有效的数据管理和利用支持。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值