大数据治理不是人人都会
作者结合在区域医疗领域数据治理的经验,以Kimball数仓建设方法论为核心,希望能深入浅出的讲解大数据治理的思想和方法,让大家对大数据治理的功能效用有一个全面的认识,走出一些理解的误区。(阔海星沉@CSDN原创,转载请注明出处)
2 挺难的(下)
2.3 技术复杂,需要统一的平台
技术方面,大数据的治理包括以下内容:不同大数据类型的手机和存储、元数据的管理、隐私(数据安全)的管理、数据质量管理、业务流程整合、主数据管理和整合、数据生命周期管理。如果有统一的平台,数据的采集、清洗、存储、传输和使用将会非常方便,大大提高数据治理过程的效率和效果。
不同大数据类型的收集和存储:
- 交易订单数据:门诊单、住院单、检验检查单等,结构化数据,通过Kettle等ETL工具进行收集,使用分布式文件系统存储。
- 人工数据:电子病历、医嘱等,非结构化数据,长文本类型,或HTML/PDF等文件格式,使用FTP文件协议收集,使用分布式对象存储系统存储,可以使用人工智能算法进行归一化和结构化处理成为结构化数据。
- 日志埋点数据:功能页面的 PV/UV、操作留痕、业务审计等日志数据,通过日志收集系统收集,使用分布式文件系统存储,可以使用流计算引擎计算统计指标等。
- 设备数据:GPS 数据等实时感知数据,通过消息队列收集,使用分布式文件系统存储。
- 新闻评论:来自互联网的舆情数据,通过网络爬虫程序收集,用分布式文件系统存储,可以使用人工智能算法进行情感分析。
元数据管理:
- 元数据,即关于数据或数据元素的数据(可能包括其数据描述),以及关于数据拥有权、存取路径、访问权和数据易变性的数据。
- 元数据包括:业务术语元数据(数据口径的定义)、运营监控元数据(ETL数据流向信息)、技术元数据(数据的血统和依赖关系)。
- 元数据管理包括:数据血缘分析、数据权限的管理、元数据敏感标记的管理。
隐私(数据安全)管理:
-
个人数据的定义:个人数据应指与已识别或可识别的自然人(“数据主体”)有关的任何信息。可识别的个人,是指能被直接或间接识别的个体,尤其是参考身份证号或针对身体的、生理的、心理的、经济的、文化的或社会身份的一个或更多因素可识别的个体。
-
识别敏感数据
-
标记敏感级别
-
敏感规则管理:根据敏感级别划定数据的访问权限。
-
根据法律政策调整数据管理策略
-
监控特权层级对敏感数据的访问
数据质量管理:
-
数据质量管理是测度、提高和验证质量,以及整合组织数据的方法等一套行为准则。
-
数据质量问题,指数据在不同系统中的值不一致,导致系统功能异常的问题:数据更新不及时;数据遗漏;参考数据质量低(代码不统一、计量单位不统一);外部数据格式不统一;数据置信度较低(建立主索引的字段权重较低);数据稀疏(表维度字段饱和度较低:一个用户对应多个属性,其中大部分为NULL);数据项缺失(整体度的饱和度低:某个字段NULL值所占的整体的比例)。
-
根据数据的使用者的要求,与数据来源单位达成一致,建立并测度大数据的置信空间,形成统一的数据质量标准。
-
通过半结构化和非结构化数据提高数据质量:可以对医嘱、病例数据进行归一化处理,补充患者的诊断和用药信息。
-
数据元管理:地理、货币、产业、课程、种族、医疗保健等代码进行统一管理,保证数据在码表对照后的一致性。
-
评分和反馈:根据制定的数据质量标准,对收集的大数据进行评分,并向数据提供方反馈具体的问题,不断提高数据质量。
业务流程整合:
- 识别关键业务流程并制作流程图。
- 在关键业务流程中加入治理操作(相关数据怎么用、涉及敏感数据怎么合规、补全主数据属性)。
主数据管理和整合:
- 主数据管理,描述了一组规程、技术和解决方案,这些规程、技术和解决方案用于为所有利益相关方(如用户、应用程序、数据仓库、流程以及贸易伙伴)创建并维护业务数据的一致性、完整性、相关性和精确性。
- 主数据包括客户、产品、物料、厂商、账户。
- 以大数据丰富主数据
- 以非结构化数据丰富主数据
- 提高主数据质量支撑大数据分析
数据生命周期管理:
- 针对不同数据类型的特性,合理设计数据的生命周期,及时清理没有价值的数据,节约存储资源
Done.
参考文档:http://c.gb688.cn/bzgk/gb/showGb?type=online&hcno=B282A7BD34CAA6E2D742E0CAB7587DBC