大数据治理不是人人都会(三)

大数据治理不是人人都会

 作者结合在区域医疗领域数据治理的经验,以Kimball数仓建设方法论为核心,希望能深入浅出的讲解大数据治理的思想和方法,让大家对大数据治理的功能效用有一个全面的认识,走出一些理解的误区。(阔海星沉@CSDN原创,转载请注明出处)

2 挺难的(下)

2.3 技术复杂,需要统一的平台

 技术方面,大数据的治理包括以下内容:不同大数据类型的手机和存储、元数据的管理、隐私(数据安全)的管理、数据质量管理、业务流程整合、主数据管理和整合、数据生命周期管理。如果有统一的平台,数据的采集、清洗、存储、传输和使用将会非常方便,大大提高数据治理过程的效率和效果。

不同大数据类型的收集和存储:

  • 交易订单数据:门诊单、住院单、检验检查单等,结构化数据,通过Kettle等ETL工具进行收集,使用分布式文件系统存储。
  • 人工数据:电子病历、医嘱等,非结构化数据,长文本类型,或HTML/PDF等文件格式,使用FTP文件协议收集,使用分布式对象存储系统存储,可以使用人工智能算法进行归一化和结构化处理成为结构化数据。
  • 日志埋点数据:功能页面的 PV/UV、操作留痕、业务审计等日志数据,通过日志收集系统收集,使用分布式文件系统存储,可以使用流计算引擎计算统计指标等。
  • 设备数据:GPS 数据等实时感知数据,通过消息队列收集,使用分布式文件系统存储。
  • 新闻评论:来自互联网的舆情数据,通过网络爬虫程序收集,用分布式文件系统存储,可以使用人工智能算法进行情感分析。

元数据管理:

  • 元数据,即关于数据或数据元素的数据(可能包括其数据描述),以及关于数据拥有权、存取路径、访问权和数据易变性的数据。
  • 元数据包括:业务术语元数据(数据口径的定义)、运营监控元数据(ETL数据流向信息)、技术元数据(数据的血统和依赖关系)。
  • 元数据管理包括:数据血缘分析、数据权限的管理、元数据敏感标记的管理。

隐私(数据安全)管理:

  • 个人数据的定义:个人数据应指与已识别或可识别的自然人(“数据主体”)有关的任何信息。可识别的个人,是指能被直接或间接识别的个体,尤其是参考身份证号或针对身体的、生理的、心理的、经济的、文化的或社会身份的一个或更多因素可识别的个体。

  • 识别敏感数据

  • 标记敏感级别

  • 敏感规则管理:根据敏感级别划定数据的访问权限。

  • 根据法律政策调整数据管理策略

  • 监控特权层级对敏感数据的访问

数据质量管理:

  • 数据质量管理是测度、提高和验证质量,以及整合组织数据的方法等一套行为准则。

  • 数据质量问题,指数据在不同系统中的值不一致,导致系统功能异常的问题:数据更新不及时;数据遗漏;参考数据质量低(代码不统一、计量单位不统一);外部数据格式不统一;数据置信度较低(建立主索引的字段权重较低);数据稀疏(表维度字段饱和度较低:一个用户对应多个属性,其中大部分为NULL);数据项缺失(整体度的饱和度低:某个字段NULL值所占的整体的比例)。

  • 根据数据的使用者的要求,与数据来源单位达成一致,建立并测度大数据的置信空间,形成统一的数据质量标准。

  • 通过半结构化和非结构化数据提高数据质量:可以对医嘱、病例数据进行归一化处理,补充患者的诊断和用药信息。

  • 数据元管理:地理、货币、产业、课程、种族、医疗保健等代码进行统一管理,保证数据在码表对照后的一致性。

  • 评分和反馈:根据制定的数据质量标准,对收集的大数据进行评分,并向数据提供方反馈具体的问题,不断提高数据质量。

业务流程整合:

  • 识别关键业务流程并制作流程图。
  • 在关键业务流程中加入治理操作(相关数据怎么用、涉及敏感数据怎么合规、补全主数据属性)。

主数据管理和整合:

  • 主数据管理,描述了一组规程、技术和解决方案,这些规程、技术和解决方案用于为所有利益相关方(如用户、应用程序、数据仓库、流程以及贸易伙伴)创建并维护业务数据的一致性、完整性、相关性和精确性。
  • 主数据包括客户、产品、物料、厂商、账户。
  • 以大数据丰富主数据
  • 以非结构化数据丰富主数据
  • 提高主数据质量支撑大数据分析

数据生命周期管理:

  • 针对不同数据类型的特性,合理设计数据的生命周期,及时清理没有价值的数据,节约存储资源

Done.

参考文档:http://c.gb688.cn/bzgk/gb/showGb?type=online&hcno=B282A7BD34CAA6E2D742E0CAB7587DBC

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
金税大数据治理平台操作手册金税大数据治理平台操作手册金税大数据治理平台操作手册金税大数据治理平台操作手册金税大数据治理平台操作手册金税大数据治理平台操作手册金税大数据治理平台操作手册金税大数据治理平台操作手册金税大数据治理平台操作手册金税大数据治理平台操作手册金税大数据治理平台操作手册金税大数据治理平台操作手册金税大数据治理平台操作手册金税大数据治理平台操作手册金税大数据治理平台操作手册金税大数据治理平台操作手册金税大数据治理平台操作手册金税大数据治理平台操作手册金税大数据治理平台操作手册金税大数据治理平台操作手册金税大数据治理平台操作手册金税大数据治理平台操作手册金税大数据治理平台操作手册金税大数据治理平台操作手册金税大数据治理平台操作手册金税大数据治理平台操作手册金税大数据治理平台操作手册金税大数据治理平台操作手册金税大数据治理平台操作手册金税大数据治理平台操作手册金税大数据治理平台操作手册金税大数据治理平台操作手册金税大数据治理平台操作手册金税期大

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值