数据治理之标签管理（五）-标签功能需求

//承续缘_纪录片

于 2024-03-18 17:41:44 发布

阅读量195

点赞数

分类专栏：数据治理文章标签：数据治理

原文链接：https://zhuanlan.zhihu.com/p/617931585

版权

数据治理专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章目录

1 标签分类
2 标签定义
- 2.1 标签基础配置
- 2.2 标签详细配置
3 标签生产
- 3.1 标签加工规则
- 3.2 标签试运算
4 标签查询
5 标签评估

1 标签分类

用户可自定义标签分类，分类层次动态制定。同时，标签分类支持按模版批量导入和单条录入功能。批量导入暂不考虑数据校验，由用户自行定义。
标签分类的属性如下：

标签分类编号：用户自定义，但满足一定的规则
标签分类名称：用户自定义
标签分类类型：主题，层次
标签分类上级编号
标签分类编码规则

注：后续可根据编码规则和标签分类名称对标签的相似性进行判断。

2 标签定义

2.1 标签基础配置

标签对象：标签所属的对象，如企业主体、用户、项目等
标签名称：用户自定义
标签英文名称：用户自定义。尽量保持与标签所在的表字段名称一致
标签类型：单选按钮。属性值包含基础标签，衍生标签，组合标签
注：衍生标签是由多个基础标签再计算而获得的
标签所属分类：可直接选择在“标签分类”模块配置的数据，支持分类查询后选择。
标签简介：文本框，用户自定义对标签进行业务描述
标签生效/失效时间：用户可自定义标签生效时间和标签失效时间，格式YYYY-MM-DD。系统可根据生效和失效时间自动生成标签当前的状态：有效/无效
标签取值：标签取值可在数据标准管理中进行定义，若在数据标准中定义则直接从数据标准中获取；或数据标准中未定义，则用户可以手工录入

2.2 标签详细配置

标签更新周期：日、月、季、年
来源信息：指生成该标签要使用的相关数据，包含来源库（依赖库）、来源对象（依赖表）、来源字段（依赖字段）、字段筛选条件。支持选择一组或多组依赖信息。若有多张表关联生成，则需要选择哪张表作为主表。
目标信息：指该标签存储到的物理环境信息，包含目标库、目标表、目标字段

3 标签生产

3.1 标签加工规则

标签数据类型：布尔型、枚举型、文本型
标签对象字段：从主表中选择对象字段
标签类型
（1）布尔型
（2）枚举型
（3）文本型
标签加工方式：
（1）规则配置实现：通选择来源表中字段并判断条件，得出其对应的标签值
（2) SQL脚本配置实现：直接写出生成标签的处理逻辑SQL
（3）调用python脚本实现：调用python脚本运行算法，返回值

3.2 标签试运算

在开发过程中，通过选择对象和标签，可以运行标签计算规则。同时，运行过程有记录日志。最后按标签值域范围统计显示运行结果。

4 标签查询

4.1标签列表

标签列表页，主要涉及的功能模块有：

标签目录检索：根据标签分类体系作为检索的条件查询标签信息
标签关键词检索：用户通过搜索的“关键词”的方式直接找到标签
标签列表：呈现检索或者搜索后的标签列表，列表可呈现必要标签信息，包含但不限于：标签中文名称，标签英文名称，标签分类，标签状态，标签引用次数，标签使用次数
标签排序：按照关键数据进行标签的排序，如标签的引用次数或标签使用次数

4.2 标签详情页

标签名称
标签分类
标签介绍
标签生效时间
标签失效时间
标签取值
标签所属表名
标签所属字段
标签更新周期
标签开发负责人

4.3 标签血缘信息

展示标签来源的表中文名称和字段，只展示一级

4.4 标签应用信息

如记录标签应用信息，则可以展现应用信息情况

应用系统
应用场景说明以上属性需要在订阅或申请使用标签的时候用户进行填写

4.5 标签值域信息

用饼图展示标签值域分析情况

5 标签评估

5.1 标签使用度评估

标签使用度，用以评估标签被分析、外部系统的使用情况。

标签引用：如基础标签被衍生标签应用、衍生标签被组合标签引用等，基于该场景，计算“标签引用次数”指标
标签分析：标签在自助分析、报表分析等功能中被分析使用的情况，计算“标签分析次数”指标
标签调用：标签通过数据API被外部应用查询的次数，计算“标签调用次数”指标基于以上3个指标，我们首先采用Sigmoid函数将指标转化为评分，再将各个指标的评分加权汇总成标签使用度评分。

5.2 标签关注度

评估标签关注度，用以评估被搜索、查看、收藏的情况。

标签搜索：标签在平台中被用户搜索的情况，计算“标签搜索次数”指标。
标签查看：标签被点击查看基础信息、分析页面等的次数，计算“标签查看次数”指标。
标签收藏：收藏该标签的用户数，计算“收藏用户数”指标。
以上3个指标可反映标签的关注热度，我们依然采用Sigmoid函数将指标转化为评分，再将各个指标的评分加权汇总成标签关注度评分。

5.3 标签质量评分

标签质量，用以评估对象被打标情况，反映标签规则的合理性。
当定义了标签和标签值，经过计算之后，标签值打在对象上的很少，那说明规则执行不合理。比如定义了“企业类型”这个标签，分为“大型、中型、小型、微型”等，但真实被打上的这个标签的企业，低于70%，还有很大一部分比例是空值，未打上该标签，说明制定的标签值规则有漏洞，需要完善。
系统将计算每个标签的“标签覆盖度”，将覆盖度归一化为分数，转化成评分。

5.4 持续优化度评分

持续优化度，用以评估标签上线后，是否后续再去优化该标签。
在业务运行过程中，我们需要不断根据业务调整、客户变化调整我们的标签策略，以追求可通过标签直接地、迅速地反映客户情况，指导业务运营。
持续优化度，通过“标签优化次数”指标来评估，指标签上线后标签被编辑再次发布的次数。同样采用Sigmoid函数将指标转化为评分。