交流群 | 进“传感器群/滑板底盘群”请加微信号:xsh041388
交流群 | 进“汽车基础软件群”请加微信号:ckc1087
备注信息:群名称 + 真实姓名、公司、岗位
有人说,智能手机就如同一部窃听器,无论你开机或者关机,它都会无时不刻地监听着用户的一举一动,而随着车联网的发展,汽车会越来越智能化,就像是一部“装着四个轮子的手机”,可想而知,智能车辆上的信息安全问题可能比智能手机更加严重。比如车辆的定位信息、相机所记录下的路端画面、车舱内的乘客录音录像等等,这些数据作为智能车发展的“燃料剂”,既是不可或缺的,又需要去避免敏感数据的泄露风险。
政府监管部门也开始关注到了智能车的数据风险,比如去年10月发布的《汽车数据安全管理若干规定(试行)》规定就提到车上摄像头所采集到的人脸、车牌等信息需要进行匿名化处理,意味着车上产生的敏感信息必须要进行脱敏处理。笔者也了解到,自动驾驶发展至今,数据脱敏处理在今年引起了大部分主机厂的重点关注。
那么,数据脱敏具体指的是什么?又是如何进行数据脱敏?数据脱敏在自动驾驶的应用中又面临什么样的挑战?带着这些问题,笔者有幸与行业内的专家进行了交流,包括但不限于中国汽车技术研究中心首席专家兼中汽数据车联网业务部部长张亚楠、中汽数据信息安全室主管刘天宇、木卫四科技的解决方案总监李浩文、信大捷安的IoT事业部总经理王建伟、整数科技的创始人兼CEO林群书等。
在与各专家交流完后,笔者整理出以下主要内容,以供读者参阅。
一、何谓数据脱敏
1.1 数据脱敏的定义
一般来说,数据脱敏技术指的是在对敏感数据进行处理的过程中,通过数据变形(将数据变成模型想要的结构,如1234->1**4)的方式来降低数据的敏感程度的一种数据处理技术。
有时候,数据脱敏也会有一些相近的概念,比如去标识化、匿名化及假名化,但数据脱敏与去标识化和匿名化的相关技术本质上是没有任何区别的,而假名化则是匿名化和去标识化的一种技术实现方式。
总的来说,在一定层面上,去标识化、匿名化及假名化,都可以归为数据脱敏。
在大数据时代下,数据脱敏技术并不是什么新鲜技术,它在其它领域中已经被广泛应用,比如政务、金融、医疗、电信等。
在自动驾驶领域,中汽协发布的《汽车传输视频及图像脱敏技术要求与方法》也定义了数据脱敏,其主要指通过一定方法在车端数据处理设备上消除原始环境数据中的敏感信息,使得信息主体无法被识别或者关联,且处理后的信息不能被复原,同时保留目标环境业务所需的数据特征或内容的数据处理过程。
为了让读者更好地理解,我们以人脸脱敏为例做个解释:数据脱敏就是将人脸的关键信息隐去或者模糊化(通俗点说,就是在脸部打了个马赛克),甚至不能让别人通过其它关联信息(比如习惯性出没的地方、本人所穿的衣服等等)来识别出这个人“具体是谁”,并且整个过程是不可逆的,但该人脸的基础语义信息仍然存在,即自动驾驶系统还是能识别出“这是一个人”。
1.2 数据脱敏的类型
从数据脱敏的类型来看,主要可分为静态数据脱敏和动态数据脱敏。
静态数据脱敏指的是数据的管理方将数据抽取进行脱敏处理后,下发给下游环节,供下游随意取用和读写,脱敏后数据与生产环境相隔离,满足业务需求的同时保障生产数据库的安全,例如自动驾驶车辆的系统开发、仿真测试等。
动态数据脱敏指的是数据使用方直接访问生产数据的使用场景,其特点为在处理敏感数据时,需要实时进行脱敏,并且也可以实时修改脱敏规则。
两者最大的区别在于,静态数据脱敏是在脱离数据生产环境后进行的,而动态数据脱敏则是直接在数据生产环境中进行的。
在智能汽车的行驶过程中,车上的大部分敏感数据的产生及处理都是实时的,所以,在自动驾驶领域中,数据脱敏主要是采取动态数据脱敏。
1.3 自动驾驶中数据脱敏的痛点
在中央计算平台的趋势下,智能汽车产生的敏感数据量会比手机更大,甚至无法估量。以感知为例,车端的传感器越来越多,传感器的性能也越来越好,这就造成整个感知系统能够获取到的数据也会越来越丰富。
李浩文说:“如今单车的智能化水平越来越高,从某种意义上来说,车辆实际上已经具备了一定的地图测绘能力”。
也就是说,如果一辆自动驾驶车辆跑完全中国的道路,在某种程度上,它就能够把一张中国地图绘制下来,而这里面必然会包含大量的敏感地理位置信息、道路标识信息甚至个人隐私等。
这还仅仅只是感知系统带来的敏感数据,但自动驾驶系统又何止感知这一块。不同的系统会有不同的敏感数据产生,并且数据的格式也会非常多样化,这些都会造成日后数据脱敏难度的增加。
面对如此大规模的敏感数据,行业早期在数据应用方面,做得并不规范。
在行业发展初期,车企在数据的采集、存储、处理等过程中,没有做到任何数据脱敏措施,数据在采集前是否征得用户允许、数据资产的归属问题等始终处于未解决的状态。。
第一,数据的确权问题非常严重。行业早期阶段,车企认为车内外的数据都是车企自己的资产,并且车上获取的数据可以被传输到自己的私有云中。
第二,整个数据运转流程不规范。用户在车内的信息(如视频、音频等)是在不经允许的情况下被采集,或者是在用户不知情的状态下,默认勾选了数据采集的“同意选项”。再者,整个车联网系统缺少数据的保护意识,容易被黑客入侵,造成用户的隐私信息被盗窃。
归根结底,造成行业内数据应用不规范的主要原因是数据脱敏相应的政策法规不成熟导致的。
虽然,近两年