大数据安全挑战
大数据安全风险伴随大数据应用而生。我们在享受大数据福祉的同时,也面临着前所未有的安全挑战。随着互联网、大数据应用的爆发,系统遭受攻击、数据丢失和个人信息泄露的事件时有发生,而地下数据交易黑灰产也导致了大量的数据滥用和网络诈骗事件。这些安全事件,有的造成个人的财产损失,有的引发恶性社会事件,有的甚至危及国家安全。可以说当前环境下,大数据平台与技术、大数据环境下的数据和个人信息、大数据应用等方面都面临着极大的安全挑战,这些挑战不仅对个人有着重大影响,更直接威胁到社会的繁荣稳定和国家的安全利益。
大数据技术和平台安全挑战…
伴随着大数据的飞速发展,各种大数据技术层出不穷,新的技术架构、支撑平台和大数据软件不断涌现,大数据安全技术和平台发展也面临着新的挑战。
传统安全措施难以适配
大数据的一个显著特点是数量巨大,即“Volume”,指的是要采集、存储和处理体量非常大的数据。同时,大数据还有另外一个特点是类型多,即“Variety”,指的是数据种类和来源非常多,类型上包括结构化、半结构化和非结构化数据,来源上包括生产、财务等业务数据,也包括文本、音频、视频、图片、地理位置信息等。这些海量、多源、异构等大数据特征导致其与传统封闭环境下的数据应用安全环境有很大区别。
大数据技术架构复杂,大数据应用一般采用底层复杂、开放的分布式计算和存储架构为其提供海量数据分布式存储和高效计算服务,这些新的技术和架构使得大数据应用的系统边界变得模糊,传统基于边界的安全保护措施将变得不再有效。如在大数据系统中,数据一般都是分布式存储的,数据可能动态分散在很多个不同的存储设备、甚至不同的物理地点存储,这样导致难以准确划定传统意义上的每个数据集的“边界”,传统的基于网关模式的防护手段也就失去了安全防护效果。
同时,大数据系统表现为系统的系统(System of System),其分布式计算安全问题也将显得更加突出。在分布式计算环境下,计算涉及的软件和硬件较多,任何一点遭受故障或攻击,都可能导致整体安全出现问题。攻击者也可以从防护能力最弱的节点着手进行突破,通过破坏计算节点、篡改传输数据和渗透攻击,最终达到破坏或控制整个分布式系统的目的。传统基于单点的认证鉴别、访问控制和安全审计的手段将面临巨大的挑战。
此外,传统的安全检测技术能够将大量的日志数据集中到一起,进行整体性的安全分析,试图从中发现安全事件。然而,这些安全检测技术往往存在误报过多的问题,随着大数据系统建设,日志数据规模增大,数据的种类将更加丰富。过多的误判会造成安全检测系统失效,降低安全检测能力。因此,在大数据环境下,大数据安全审计检测方面也面临着巨大的挑战。随着大数据技术的应用,为了保证大数据安全,需要进一步提高安全检测技术能力,提升安全检测技术在大数据时代的适用性。
平台安全机制严重不足
现有大数据应用中多采用开源的大数据管理平台和技术,如基于Hadoop生态架构的HBase/Hive、Cassandra/Spark、MongoDB等。这些平台和技术在设计之初,大部分考虑是在可信的内部网络中使用,对大数据应用用户的身份鉴别、授权访问以及安全审计等安全功能需求考虑较少。近年来,随着更新发展,这些软件通过调用外部安全组件、修补安全补丁的方式逐步增加了一些安全措施,如调用外部Kerberos身份鉴别组件、扩展访问控制管理能力、允许使用存储加密以及增加安全审计功能等。即便如此,大部分大数据软件仍然是围绕大容量、高速率的数据处理功能开发,而缺乏原生的安全特性,在整体安全规划方面考虑不足,甚至没有良好的安全实现。
同时,大数据系统建设过程中,现有的基础软件和应用多采用第三方开源组件。这些开源系统本身功能复杂、模块众多、复杂性很高,因此对使用人员的技术要求较高,稍有不慎,可能导致系统崩溃或数据丢失。在开源软件开发和维护过程中,由于软件管理松散、开发人员混杂,软件在发布前几乎都没有经过权威和严格的安全测试,使得这些软件大都缺乏有效的漏洞管理和恶意后门防范能力。如 2017 年 6 月,Hadoop的发行版本被发现存在安全漏洞,由于该软件没有对输入进行严格的验证,导致攻击者可以利用该漏洞攻击系统,并获得最高管理员权限。
物联网技术的快速发展,使得当前设备连接和数据规模都达到了前所未有的程度,不仅手机、电脑、电视机等传统信息化设备已连入网络,汽车、家用电器和工厂设备、基础设施等也将逐步成为互联网的终端。而在这些新终端的安全防护上,现有的安全防护体系尚不成熟,有效的安全手段还不多,急需研发和应用更好的安全保护机制。
应用访问控制愈加困难
大数据应用的特点之一是数据类型复杂、应用范围广泛,它通常要为来自不同组织或部门、不同身份与目的的用户提供服务。因而随着大数据应用的发展,其在应用访问控制方面也面临着巨大的挑战。
首先是用户身份鉴别。大数据只有经过开放和流动,才能创造出更大的价值。目前,政府部门、央企及其它重要单位的数据正在逐步开放,或开放给组织内部不同部门使用,或开放给不同政府部门和上级监管部门,或者开放给定向企业和社会公众使用。数据的开放共享意味着会有更多的用户可以访问数据。大量的用户以及复杂的共享应用环境,导致大数据系统需要更准确地识别和鉴别用户身份,传统基于集中数据存储的用户身份鉴别难以满足安全需求。
其次是用户访问控制。目前常见的用户访问控制是基于用户身份或角色进行的。而在大数据应用场景中,由于存在大量未知的用户和数据,预先设置角色及权限十分困难。即使可以事先对用户权限分类,但由于用户角色众多,难以精细化和细粒度地控制每个角色的实际权限,从而导致无法准确为每个用户指定其可以访问的数据范围。
再次是用户数据安全审计和追踪溯源。针对大数据量时的细粒度数据审计能力不足,用户访问控制策略需要创新。当前常见的操作系统审计、网络审计、日志审计等软件在审计粒度上较粗,不能完全满足复杂大数据应用场景下审计多种数据源日志的需求,尚难以达到良好的溯源效果。
基础密码技术亟待突破…
随着大数据的发展,数据的处理环境、相关角色和传统的数据处理有了很大的不同,如在大数据应用中,常常使用云计算、分布式等环境来处理数据,相关的角色包括数据所有者、应用服务提供者等。在这种情况下,数据可能被云服务提供商或其他非数据所有者访问和处理,他们甚至能够删除和篡改数据,这对数据的保密性和完整性保护方面带来了极大的安全风险。
密码技术作为信息安全技术的基石,也是实现大数据安全保护与共享的基础。面对日益发展的云计算和大数据应用,现有密码算法在适用场景、计算效率以及密钥管理等方面存在明显不足。为此,针对数据权益保护、多方计算、访问控制、可追溯性等多方面的安全需求,近年来提出了大量的用于大数据安全保护的密码技术,包括同态加密算法、完整性校验、密文搜索和密文数据去重等,以及相关算法和机制的高效实现技术。为更好地保护大数据,这些基础密码技术亟待突破。
如在上世纪七十年代提出的同态加密思想,由于这种加密算法可以直接对加密数据进行各种运算,运算后数据再解密的结果和对原始未加密数据进行同样运算的结果是一致的,因此同态加密非常适合于云计算环境中,可以从根本上解决将数据及其操作委托给第三方时的保密问题。尽管近几年来,同态加密技术已经得到了较大的发展,但是离大规模实用还有一定距离。考虑到应用需求和诱人的前景,同态加密算法亟待得到突破性创新发展。
数据安全和个人信息保护挑战
大数据中包含了大量的数据,而其中又蕴含着巨大的价值。数据安全和个人信息保护是大数据应用和发展中必须面临的重大挑战。
数据安全保护难度加大…
大数据拥有大量的数据,使得其更容易成为网络攻击的目标。在开放的网络化社会,蕴含着海量数据和潜在价值的大数据更受黑客青睐,近年来也频繁爆发邮箱账号、社保信息、银行卡号等数据大量被窃的安全事件。分布式的系统部署、开放的网络环境、复杂的数据应用和众多的用户访问,都使得大数据在保密性、完整性、可用性等方面面临更大的挑战。
历史上发生过多起大数据平台数据泄露的安全事件。如 2016 年年底,因系统漏洞和配置问题,全球范围内数以万计的MongoDB系统遭到攻击,数百TB的数据被攻击者下载,涉及包括医疗、金融、旅游在内的诸多行业。一部分攻击者甚至在入侵 MongoDB 数据库后,将数据清除并向受害者索取赎金。又如在2017 年 6 月,因HDFS服务器配置不当,导致全球近 4500 台服务器遭受攻击,泄露数据量高达 5120 TB。
针对数据的安全防护,应当围绕数据的采集、传输、存储、处理、交换、销毁等生命周期阶段进行。针对不同阶段的不同特点,应当采取适合该阶段的安全技术进行保护。如在数据存储阶段,大数据应用中的数据类型包括结构化、半结构化和非结构化数据,且半结构化和非结构化数据占据相当大的比例。因此在存储大数据时,不仅仅要正确使用关系型数据库已有的安全机制,还应当为半结构化和非结构化数据存储设计安全的存储保护机制。
个人信息泄露风险加剧…
由于大数据系统中普遍存在大量的个人信息,在发生数据滥用、内部偷窃、网络攻击等安全事件时,常常伴随着个人信息泄露。另一方面,随着数据挖掘、机器学习、人工智能等技术的研究和应用,使得大数据分析的能力越来越强大,由于海量数据本身就蕴藏着价值,在对大数据中多源数据进行综合分析时,分析人员更容易通过关联分析挖掘出更多的个人信息,从而进一步加剧了个人信息泄露的风险。在大数据时代,要对数据进行安全保护,既要注意防止因数据丢失而直接导致的个人信息泄露,也要注意防止因挖掘分析而间接导致的个人信息泄露,这种综合保护需求带来的安全挑战是巨大的。
在大数据时代,不能禁止外部人员挖掘公开、半公开信息,即使想限制数据共享对象、合作伙伴挖掘共享的信息也很难做到。目前,各社交网站均不同程度地开放其所产生的实时数据,其中既可能包括商务、业务数据,也可能包括个人信息。市场上已经出现了许多监测数据的数据分析机构。这些机构通过对数据的挖掘分析,以及和历史数据对比分析、和其他手段得到的公开、私有数据进行综合挖掘分析,可能得到非常多的新信息,如分析某个地区经济趋势、某种流行病的医学分析,甚至直接分析出某个人的具体个人信息来。
个人信息泄露产生的后果将远比一般数据泄露严重, 2016 年 8 月,犯罪团伙利用非法获取得到的数万条高考考生信息实施诈骗,山东女孩徐某因学费被骗出现心脏骤停,最终不幸逝世。近几年来,个人信息泄露的事件时有发生,如在 2015 年 5 月,美国国税局宣布其系统遭受攻击,约 71 万人的纳税记录被泄露,同时约 39 万个纳税人账户被冒名访问; 2016 年 12 月,雅虎公司宣布其超过 10 亿的用户账号被黑客窃取,相关信息包括姓名、邮箱口令、生日、邮箱密保问题及答案等内容。
需要注意的是,如经过“清洗”、“脱敏”后的数据也不能说肯定是安全的。如 2006 年,为了学术研究,美国在线(AOL)将 65 万条用户数据匿名处理后,公开发布。而《纽约时报》通过综合推断,竟然分析出了数据集中某个匿名用户的真实姓名和地址等个人信息。因此,在大数据环境下,对个人信息的保护将面临极大的挑战。
数据真实性保障更困难…
大数据的特点中,类型多(Variety),是指数据种类和来源非常多。实际上,在当前的万物互联时代,数据的来源非常广泛,各种非结构化数据、半结构化数据与结构化数据混杂在一起。数据采集者将不得不接受的现实是:要收集的信息太多,甚至很多数据不是来自第一手收集,而是经过多次转手之后收集到的。
从来源上看,大数据系统中的数据来源可能来源于各种传感器、主动上传者以及公开网站。除了可信的数据来源外,也存在大量不可信的数据来源。甚至有些攻击者会故意伪造数据,企图误导数据分析结果。因此,对数据的真实性确认、来源验证等需求非常迫切,数据真实性保障面临的挑战更加严峻。
事实上,由于采集终端性能限制、鉴别技术不足、信息量有限、来源种类繁杂等原因,对所有数据进行真实性验证存在很大的困难。收集者无法验证到手的数据是否是原始数据,甚至无法确认数据是否被篡改、伪造。那么产生的一个问题是,依赖于大数据进行的应用,很可能得到错误的结果。
如在 2008 年,Google发布一款名为“谷歌流感趋势”(Google Flu Trends,GFT)的产品。该产品的基本思路是:搜索流感相关主题的人数与实际患有流感症状的人数之间存在着密切的关系,用大数据分析网络上用户的搜索词有助于了解流感疫情。该产品在 2008 年大获成功,基于用户的搜索数据,比美国疾病预防控制中心(Centers for Disease Control and Prevention)提前两个星期预测到了流感的爆发。但是,消息公布后,众多的网民都对这个预测很感兴趣,于是网络中出现了大量的类似搜索记录,从而导致了很多“虚假”的数据记录到搜索数据中。所以后来该产品的预测结果就不准确了,尤其是到了 2012年,偏差最大甚至高出了标准值一倍多。因此,在大数据环境下,对数据真实性保障面临巨大的挑战。
数据所有者权益难保障…
数据脱离数据所有者控制将损害数据所有者的权益。大数据应用过程中,数据的生命周期包括采集、传输、存储、处理、交换、销毁等各个阶段,在每个阶段中可能会被不同角色的用户所接触,会从一个控制者流向另一个控制者。因此,在大数据应用流通过程中,会出现数据拥有者与管理者不同、数据所有权和使用权分离的情况,即数据会脱离数据所有者的控制而存在。从而,数据的实际控制者可以不受数据所有者的约束而自由地使用、分享、交换、转移、删除这些数据,也就是在大数据应用中容易存在数据滥用、权属不明确、安全监管责任不清晰等安全风险,而这将严重损害数据所有者的权益。
数据产权归属分歧严重。数据的开放、流通和共享是大数据产业发展的关键,而数据的产权清晰是大数据共享交换、交易流通的基础。但是,当前的大数据应用场景中,存在数据产权不清晰的情况。如大数据挖掘分析者经过对原始数据集处理后,会分析出新的数据,这些数据的所有权到底属于原始数据所有方,还是挖掘分析者,目前在很多应用场景中还是各执一词,没有明确的说法。又如在一些提供交通出行、位置服务的应用中,服务提供商在为客户提供导航、交通工具等服务时,同时记录了客户端运动轨迹信息,对于此类运动轨迹信息的权属到底属于谁,以及是否属于客户端个人信息,到目前为止,分歧仍然比较大。对此类数据权属不清的数据,首要解决的是数据归谁所有、谁能授权等问题,才能明确数据能用来干什么、不能用来干什么,以及采用什么安全保护措施,尤其是当数据中含有重要数据或个人信息的时候。
国家社会安全和法规标准挑战
大数据正日益对全球经济运行机制、社会生活方式和国家治理能力产生重要影响。全球范围内,运用大数据推动经济发展、完善社会治理、提升政府服务和监管能力正成为趋势。与此同时,随着大数据的应用和发展,数据量越来越大、内容越来越丰富、交流领域越来越广、应用越来越重要,大数据的安全问题引发了世界各国的普遍担忧。可以说,大数据时代的到来在给我们带来机遇的同时,也给国家安全、社会治理以及法规标准制定等带来了巨大的挑战。
国家安全深受大数据影响…
国家安全是伴随着国家的出现而产生的,它是一个国家生存和发展的前提。随着时代发展,当前国家安全的内容已发展的十分丰富,包含了政治安全、国土安全、军事安全、经济安全、文化安全、社会安全、科技安全、信息安全、生态安全、资源安全、核安全等内容。这些内容相互联系、相互作用,影响着整个国家安全。
大数据不仅仅带来了技术和产业的变更,更是改变了我们的工作方式、生活方式乃至思维模式。大数据是信息化发展的新阶段,运用大数据可以提升国家治理现代化水平,通过建立健全大数据辅助科学决策和社会治理的机制,有助于推进政府管理和社会治理模式创新。
信息技术与经济社会的交汇融合引发了数据迅猛增长,数据已成为国家基础性战略资源。而同时,大数据的应用范围越来越广泛,国家的政治、经济、军事、文化等各个领域都离不开数据和数字基础设施。各类大数据平台承载着海量的数据资源,其中不乏大量敏感资源和重要数据,必然会成为包括黑客在内的各类敌对势力对一个国家进行网络攻击的重要目标。实际上,各类数据已经成为一些不法分子和敌对势力用来策划、实施、推动各种违法犯罪活动的理想工具,对国家安全和社会稳定造成了极大的破坏。上升到国家战略层面,涉及国计民生的关键信息基础设施的大数据资源一旦受到破坏,将使得国家在政治、经济、军事等各领域受到巨大的损失。
面对汹涌的数据洪流,站在国家安全的角度来思考和研究大数据安全,已经成为一个紧迫而现实的挑战。大数据全球化、开放化的特点,使国家的“信息边疆”不断拓展和延伸。大数据安全和国家安全息息相关,没有大数据安全,就没有真正意义上的国家安全。
社会治理面临大数据挑战…
大数据应用能够揭示传统技术方式难以展现的关联关系,推动政府数据开放共享,促进社会事业数据融合和资源整合,将极大提升政府整体数据分析能力,为有效处理复杂社会问题提供新的手段。建立“用数据说话、用数据决策、用数据管理、用数据创新”的管理机制,实现基于数据的科学决策。但是,从我国信息化发展的现实情况看,“不敢共享开放”、“不会共享开放”的情况依然较为普遍。相关人员担心数据共享开放会引起信息安全问题,担心数据泄密和失控。尤其是掌握大量数据的各级政务部门,因大数据安全措施不到位,导致他们对数据不敢共享开放,也不会实施安全地共享开放。因此,加强大数据环境下的网络安全问题研究和基于大数据的网络安全技术研究,建立健全大数据安全保障体系,切实保障数据安全,才能确保大数据“敢共享开放”和“会共享开放”,才能真正促进社会发展。
此外,创新社会治理,是我国应对社会转型、化解社会矛盾、协调利益关系所面临的一项重大战略任务。针对目前社会治理领域普遍存在的一些问题,大数据技术通过对海量数据的快速收集与挖掘、及时研判与共享,成为支持社会治理科学决策和准确预判的有力手段,为转型期的社会治理带来了新机遇。而现实问题是,在大数据时代,可以说每个人都是数据的制造者、传递者和消费者,大量现实问题在虚拟的网络环境中讨论和传播,其中不乏存在大量的误导、篡改及谣传的信息。一方面,这些虚假、错误的信息进入到社会治理的数据集中后,将会误导基于大数据的科学决策,影响社会治理重点和效果;另一方面,虚假、错误的信息不被及时发现和处理,极有可能带来恶劣的负面效果,甚至导致爆发社会群体性事件。因此,如何甄别大数据中虚假和错误信息对社会治理带来了巨大挑战。
大数据安全法规标准尚需完善…
大数据应用的场景越来越多,越来越重要,因此,要科学规范利用大数据并切实保障数据安全,在完善法规制度和标准体系方面也将面临着不小的挑战。一方面,大数据的发展推动了经济发展,但也给监管和法律带来了新的挑战。法律带来的是稳定的预期和权利义务关系的平衡。大数据以及它给政治、经济、社会带来的深刻变革,终将需要法律规范的保障。《促进大数据发展行动纲要》指出,推进大数据健康发展,要加强政策、监管、法律的统筹协调,加快法规制度建设。要制定数据资源确权、开放、流通、交易相关法规,完善数据产权保护法规。通过积极研究数据开放、保护等方面的法规,有利于实现对数据资源的采集、传输、存储、处理、交换、销毁的规范管理,可以促进数据在风险可控原则下最大程度开放,明确市场主体大数据的权限及范围,界定数据资源的所有权及使用权,加强对数据滥用、侵犯个人信息安全等行为的管理和惩戒。如通过制定个人信息方面的法规制度细则,可以界定哪些数据属于个人信息,如非法使用则将受到相应的惩戒;又如通过制定跨境数据流动方面的法规制度细则,可以加速形成跨境数据安全流动框架,明确相应的部门职责、数据分类管理要求以及数据主体的权利和义务等。
另一方面,大数据的发展也给标准规范配套带来了新的挑战。标准是法规制度的支撑,肩负着规范市场客体质量和技术要求的重要职能。因此,除了在立法层面要明确数据保护方面的法规外,还应制定相应的数据采集、储存、处理、推送和应用的标准规范。通过制定符合实际的大数据应用和安全标准,能有效促进大数据安全应用,从而既能引导、规范、促进大数据的发展,又确保了数据开放共享、个人信息保护需求和安全保障需求之间的平衡。如制定了个人信息分类、责任原则、保护要求和安全评估方面的标准内容,有利于更好地规范实施个人信息的安全采集、存储和处理过程,防止个人信息被误用和滥用;又如制定了数据确权、访问接口、服务安全要求等标准内容,有利于建立安全的大数据市场交易体系,促进大数据交易流通的发展。
更多大数据安全学习文档
GB/T 37973-2019 信息安全技术 大数据安全管理指南
tc260 大数据安全标准化白皮书 2017版
tc260 大数据安全标准化白皮书 2018版