数据质量与数据质量八个维度指标

        数据的质量直接影响着数据的价值,并且直接影响着数据分析的结果以及我们以此做出的决策的质量。质量不高的数据不仅仅是数据本身的问题,还会影响着企业经营管理决策;错误的数据还不如没有数据,因为没有数据时,我们还会基于经验和基于常识的判断来做出不见得是错误的决策,而错误的数据会引导我们做出错误的决策。因此数据质量是企业经营管理数据治理的关键所在。

        数据的质量可以从八个方面进行衡量,每个维度都从一个侧面来反映数据的品相。八个维度分别是:准确性、真实性、完整性、全面性、及时性、即时性、精确性和关联性。

        我们在比较两个数据集的品相的时候往往采用这种图形表示。比如说,常规来讲内部数据采集的准确性、真实性、完整性高,而全面性、及时性、即时性、精确性和关联性方面取决于企业内部对数据的重视程度以及采用的技术手段的先进性有关;外部数据集,比如说微博数据、互联网媒体数据等,其全面性、及时性和即时性都可以通过技术手段,如网络爬虫等得到提高,但在准确性、真实性、精确性上难以保证,也难以控制,在关联性方面取决于数据采集和挖掘的相关技术。

        我们也可以用这个模型来衡量公司内部各个职能部门数据的品相。下图是个示意,通过数据质量8大指标的评价,我们可以对企业内部数据治理有针对性地采取措施去提高企业的数据质量。

(1) 数据的准确性

        数据的准确性(Accuracy)是指数据采集值或者观测值和真实值之间的接近程度,也叫做误差值,误差越大,准确度越低。数据的准确性由数据的采集方法决定的。

(2)数据的精确性

        数据的精确性(Precision)是指对同一对象的观测数据在重复测量时所得到不同数据间的接近程度。精确性,也可以叫精准性。精确性与我们数据采集的精度有关系。精度高,要求数据采集的粒度越细,误差的容忍程度越低。

        测量人的身高,我们可以精确到厘米,多次测量差异只会在厘米级别;测量北京到上海的距离,我们精确到公里,多次测量结果间的差异会在公里级别;采用游标卡尺测量一个零件的厚度,可以精确到1/50毫米,多次测量的结果间的误差也只会在1/50毫米间。采用的测量方法和手段直接影响着数据的精确性。

(3)数据的真实性

        数据的真实性,也叫数据的正确性(Rightness)。数据的正确性取决于数据采集过程的可控程度,可控程度高,可追溯情况好,数据的真实性容易得到保障,而可控程度低或者无法追溯,数据造假后无法追溯,则真实性难以保证。

        为了提高数据的真实性,采用无人进行过程干涉的智能终端直接采集数据,能够更好地保证所采集数据的真实性,减少人为干预,减少数据造假,从而让数据更加正确地反应客观事物。

(4) 数据的及时性

        数据的及时性(In-time)就是数据能否在需要的时候得到保证。我们月初会对上个月的经营和管理数据进行统计汇总,这些数据能否及时处理完成,财务能否在月度关账后及时核算。数据的及时性是我们数据分析和挖掘及时性的保障。如果公司的财务核算复杂,核算速度缓慢,上个月的数据在月中才能统计汇总完成,等需要调整财务策略的时候,已经到了月底了,一个月已经快过完了。特别是公司做大了之后,业务覆盖多个市场、多个国家,数据不能及时汇总,会影响到高层决策的及时程度。

        数据的及时性与企业数据处理的速度和效率有直接的关系,为了提高数据的及时性,越来越多的公司采用管理信息系统,并在管理信息系统中附加各种自动数据处理功能,能够在数据上传系统之后自动完成绝大部分报表,从而保证数据处理的效率。计算机自动处理中间层数据是提高企业数据处理效率的有效手段。

        除了保证数据采集的及时性和数据处理的效率问题外,还需要从制度和流程上保证数据传输的及时性。数据报表完成了,要及时或者在要求的时间范围内发送到指定的部门,或者上传到指定的存储空间。

(5) 数据的即时性

        数据的即时性是指数据采集时间节点和数据传输的时间节点,一个数据在数据源头采集后立即存储,并立即加工呈现,就是即时数据,而经过一段时间之后再传输到信息系统中,则数据即时性就稍差。

        微博的数据采集,当用户发布了微博,数据立即能够被抓取和加工,会生成即时微博数据报告,并随着时间推移,数据不断变化,我们可以称作是即时采集和处理的。一个生产设备的仪表即时反应着设备的温度、电压、电流、气压等数据,这些数据生成数据流,随时监控设备的运行状况,这个数据可以看作是即时数据。而当设备的即时运行数据存储下来,用来分析设备运行状况与设备寿命的关系,这些数据就成为历史数据。

(6) 数据的完整性

        数据的完整性是从数据采集到的程度来衡量的,是应采集和实际采集到数据之间的比例。一条信息采集12个数据点,如我们采集员工信息数据的时候,要求填写姓名、出生日期、性别、民族、籍贯、身高、血型、婚姻状况、最高学历、最高学历专业、最高学历毕业院校、最高学历毕业时间等12项信息,而某一员工仅仅填写了部分信息,如只填写了其中的5项,则该员工所填写数据的完整性只有一半。

        一个公司数据的完整性体现着这个公司对数据的重视程度。要求采集数据而实际上并未完整采集,只采集了一部分,这就是不完整的,往往是公司对数据采集质量要求不到位导致的。公司要求每个人都填写完整的个人信息表,而有部分员工拒绝填写,公司2000员工,只有1200人填写了完整的个人信息表,则这个数据集就是不完整的。

        另外,对于动态数据,我们可以从时间轴上去衡量数据采集的完整性。比如,我们要求每小时采集一次数据,每天会形成24个数据点,记录为24条数据,但是员工渎职,只记录了20次,那么这个数据集也是不完整的。

(7)  数据的全面性

        数据的全面性和完整性不同,完整性衡量的是应采集和实际采集的差异。而全面性指的是数据采集点的遗漏情况。比如说,我们要采集员工行为数据,我们只采集了员工上班打卡和下班打卡的数据,上班时间的员工行为数据并未采集,或者没有找到合适的方法来采集。那么,这个数据集就是不全面的。

        我们描述一个产品的包装,仅仅描述了产品包装的正面和背面,没有记录产品包装的侧面,则就是不全面的。我们记录一个客户的交易数据,我们只采集了客户订单中的产品、订单中产品的价格和数量,而没有采集客户送货地址、采购时间,这个数据采集就是不全面的。

        腾讯QQ和微信的用户数据记录了客户交流沟通的数据;阿里和京东的用户数据记录了用户的购买交易数据;百度地图记录了用户出行的数据;大众点评和美团记录了客户餐饮娱乐的数据。对于全面描述一个人的生活的衣食住行各方面,这些公司的数据都是不全面的,而如果把他们的数据整合起来,则会形成更加全面的数据。所以说,数据的全面性说一个相对的概念。过度追求数据的全面性说不现实的。

(8) 数据的关联性

        数据的关联性是指各个数据集之间的关联关系。比如员工工资数据和员工绩效考核数据是通过员工这个资源关联在一起来的,而且绩效数据直接关系到工资的多少。采购订单数据与生产订单数据之间通过物料的追溯机制进行关联,而生产订单又是由员工完成的,即通过员工作业数据与员工信息数据关联起来。

        其实,我们本书探讨的企业大数据,每个数据集都是相关关联的,有些是直接关联的,比如员工工资数据和员工绩效数据,有些是间接关联的,比如说物料采购订单数据与员工工资数据。这些数据的关联关系是由公司的资源,包括人、财、物和信息等,连接起来的。如果有任何的数据集不能连接到其他的数据集,就会存在数据割裂或者数据孤岛。数据割裂和数据孤岛是企业数据关联性不足导致的。而数据的关联性直接影响到企业数据集的价值。

  • 3
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: 《数据质量管理:6个维度,50个检查项.pdf》是一份关于数据质量管理的指南文件,主要包括六个维度和五十个检查项。 这六个维度是指数据质量管理中需要注意的六个方面,包括:准确性、完整性、一致性、可靠性、及时性和可用性。 准确性是指数据的准确程度,即数据与实际情况的一致程度。在数据质量管理中,需要对数据进行准确性检查,确保数据的正确性和真实性。 完整性是指数据的完整程度,即数据是否包含所有必要的信息。在数据质量管理中,需要对数据进行完整性检查,确保数据不缺失、不重复,并且包含所有必要的字段和记录。 一致性是指数据在各个系统、模块或者时间点上的一致性。在数据质量管理中,需要对数据进行一致性检查,确保各个系统之间的数据一致性,保证数据的准确性和可靠性。 可靠性是指数据在各个操作中的可靠性和稳定性。在数据质量管理中,需要对数据进行可靠性检查,以确保数据能够在各种操作和环境下正常运行,并不会因为某些异常情况而导致数据失效或错误。 及时性是指数据的更新和发布的及时性。在数据质量管理中,需要对数据进行及时性检查,确保数据能够及时更新,并及时发布给相关人员和系统,以保证数据的实时性和有效性。 可用性是指数据对于用户和系统的可用性和易用性。在数据质量管理中,需要对数据的可用性进行检查,确保用户和系统能够方便地获取和使用数据,提高数据的价值和利用率。 《数据质量管理:6个维度,50个检查项.pdf》提供了五十个具体的检查项,针对以上六个维度进行细致的检查和评估。这些检查项可以根据实际情况进行筛选和应用,帮助企业或组织全面提升数据质量管理水平,确保数据的准确性、完整性、一致性、可靠性、及时性和可用性。 ### 回答2: 《数据质量管理:6个维度,50个检查项.pdf》是一份关于数据质量管理的文档。这份文档主要围绕数据质量管理展开,其中包括6个维度和50个检查项。 在数据质量管理中,涉及到的6个维度主要是:准确性、完整性、一致性、唯一性、时效性和可靠性。这些维度是评估数据质量的重要指标,帮助我们了解数据是否准确、完整、一致、唯一、及时和可靠。 而50个检查项则是针对以上6个维度的具体检查内容。这些检查项可以帮助我们评估和监测数据质量,并发现其中可能存在的问题和潜在风险。这些检查项包括但不限于:数据是否存在错误或异常值、数据是否缺失、数据是否符合标准格式、存在重复数据等等。 通过对这些检查项的实施,可以确保数据质量得到有效的管理和控制。数据质量管理对于企业来说至关重要,因为高质量数据能够提供准确可靠的信息支持,帮助企业做出决策和实施业务战略。 总之,《数据质量管理:6个维度,50个检查项.pdf》是一份针对数据质量管理的文档,通过6个维度和50个检查项来评估和监测数据质量,提高数据质量的管理和控制水平。 ### 回答3: 《数据质量管理:6个维度,50个检查项.pdf》是一份关于数据质量管理的文件,其中包含了六个维度和五十个检查项。 数据质量管理是指对数据的准确性、完整性、一致性、可靠性和及时性进行管理和控制的过程。这个文件把数据质量管理分为六个维度,即准确性、完整性、一致性、可靠性、及时性和可理解性。 首先,准确性是指数据的正确度和无误差性。在数据质量管理中,准确性是一个重要的指标,它确保数据的准确和可信度。本文件列举了一些检查项,用于评估和改善数据的准确性。 其次,完整性是指数据的完整性和完整性。它确保数据的完整性,没有缺失或丢失的值。文件中的检查项可以帮助评估和监控数据的完整性。 第三,一致性是指数据在不同系统和环境中的一致性。这是确保数据在各种应用程序和系统中的一致性非常重要的一个维度。文件中的检查项可以用来检查数据在这个方面的一致性。 第四,可靠性是指数据在长时间内保持不变的能力。在数据质量管理中,可靠性是一个重要的维度,因为它确保数据在时间和环境中的一致性。文件中的检查项可以帮助评估和监控数据的可靠性。 第五,及时性是指数据在所需的时间内可用的能力。在数据质量管理中,及时性是一个关键的因素,因为它确保数据在需要时及时可用。文件中的检查项可以用来检查数据的及时性。 最后,可理解性是指数据的易理解性和易使用性。数据质量管理中的可理解性是确保数据易于理解和使用的一个重要维度。文件中的检查项可以用来评估数据的可理解性。 总而言之,《数据质量管理:6个维度,50个检查项.pdf》提供了一个全面的数据质量管理框架,其中包含了六个重要的维度和五十个检查项,可以帮助组织评估和改善数据质量

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

the uzi

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值