2.1引言
简单来说,伦理是建立在是非观念上的行为准则。伦理准则通常侧重于公平、尊重、责任、诚信、质量、可靠性、透明度和信任等方面。
数据处理伦理问题较为复杂,不过主要集中在几个核心概念上:
1))对人的影响。由于数据代表个人的特征,可被用于各类决策,从而影响人们的生活,因此必须保证其质量和可靠性。
2)滥用的可能。滥用数据会对人和组织造成负面影响,所以需要有伦理准则来防止数据被滥用。
3)数据的经济价值。数据存在经济价值。需要规定数据所有权,即谁可以去使用数据及如何使用数据。
组织保护数据的动机很大程度上来自法律法规的要求。然而,由于数据代表了人(客户、员工、患者、供应商等),数据管理专业人员应认识到,保护数据并且确保其不被滥用除了法律约束以外还有伦理因素。即使不直接代表个人的数据也可能会用于做出影响人们生活的决策。
伦理准则不仅要保护数据,而且要管理数据的质量。
2.2业务驱动因素
伦理意味着“在没有人注意的情况下正确做事”。按照符合伦理准则的方式使用数据越来越被认为是一种商业竞争优势。
2.3基本概念
2.3.1数据伦理准则
(1)尊重他人
这个准则反映了对待人类最基本的伦理要求,即尊重个人尊严和自主权。准则还要求,人们在处于“弱势群体”的情况下,应格外注意保护他们的尊严和权利。
(2)行善原则
这条准则有两个要素:第一,不伤害;第二,将利益最大化、伤害最小化。
(3)公正
这一准则认为待人公平和公正。
2.3.2数据隐私法背后的原则
2.3.4违背伦理进行数据处理的风险
1.时机选择
有可能通过遗漏或根据时间将某些数据点包含在报告或活动中而撒谎。
2.可视化误导
图表和图形可用于以误导性方式去呈现数据。
3.定义不清晰或无效的比较
据关国一家新闻媒体报告,依据20l年人口普查局数据,在美国的1.086亿人靠福利生活,而只有1.017亿人有全职工作,似乎总人口中有较多人在靠福利生活。
4.偏见
偏见是指一种有倾向性的观点。
在统计学中、偏见是指偏离期望值。这种情况通常是通过抽样或数据选择的系统错误引入的。
正义的伦理原则有助于创造了一种积极的责任,即主动意识到数据采集、处理、分析或解释可能存在的偏差。
偏差有几种类型:
1)预设结论的数据采集。
2)预感和搜索。
3)片面抽样方法。
5)背景和文化。
偏见的问题源于许多因素,例如,有问题的数据处理类型、涉及的利益相关方、数据集如何填充、正在实现的业务需要以及流程的预期结果。然而,消除所有偏见并不总是可行的,甚至是不可取的。
5.转换和集成数据
数据集成过程也有伦理上的挑战,因为数据在从系统到系统的交互过程中发生了变化。如果数据未经治理,就会出现不符合伦理要求的处理方式,甚至存在非法数据的风险。这些伦理风险与数据管理中的一些基本问题交织在一起,包括:
1)对数据来源和血缘的了解有限。
2)质量差的数据。
3)不可靠的元数据。
4)没有数据修订历史的文档。
6.数据的混淆和修订
混淆和修订数据是进行信息脱敏或信息不公开的常用方法。但是,如果下游的活动(分析或与其他数据集相结合)需要公开数据,那么仅仅混淆就不足以保护数据。这种风险存在于以下活动中:
1)数据聚合(Data Aggregation)。跨越多个维度进行聚合数据并删除标识数据时,这组数据仍然可以用于其他分析服务,而不必担心泄露个人识别信息 ( PII)。
2)数据标记( Data Marking)。数据标记用于对敏感数据(秘密、机密、个人等)进行分类,并将其控制发布到合适的社区,如公众或供应商,甚至来自某些国家或其他社区的供应商。
3)数据脱敏(Data Masking)。数据脱敏是一种只有提交适当数据才能解锁过程的实践。
2.3.6数据伦理和治理
数据处理行为的数据监督属于数据治理和法律顾问范畴。