人工智能数据安全风险及评估

最新推荐文章于 2024-07-28 15:37:27 发布

大数据girl

最新推荐文章于 2024-07-28 15:37:27 发布

阅读量1.1k

点赞数 26

文章标签：人工智能前端大数据 json github html5

本文链接：https://blog.csdn.net/TinagirlAPI/article/details/136831496

版权

随着以“数字新基建、数据新要素、在线新经济”为特征的新一波数字经济浪潮全面来临，推动全球人工智能发展逐步从“探索期”向“成长期”过渡，在技术和产业上均进入重要的转型阶段。在此背景下，人工智能发展和数据安全问题日益深度交织融合，企业人员正在成为数据安全风险的主要群体，与智能对话机器人分享的机密信息可能被用于未来人工智能模型的迭代训练，这将可能会导致该模型输出的内容可能包含机密信息，例如用户隐私数据、企业机密数据等，从而造成敏感数据泄漏的风险。

人工智能引起的数据安全与挑战

人工智能全面新发展的数据安全挑战既有传统数据安全问题的普遍共性，更具有人工智能时代的独特烙印，影响领域覆盖用户隐私、公民权益、商业秘密、知识产权、社会公平、国家安全等各个方面。基于数据生命周期的视域，从数据采集、数据处理、数据流通和数据使用4个阶段，分析人工智能发展中较为独特或更突出的数据安全问题。

1.1

数据采集阶段【电商兴起的时代，大规模数据采集我们主要通过API数据采集接口实现】

人工智能数据采集时难以保障用户的数据权利

人工智能算法尤其是在深度学习的开发测试过程中，需要大量训练数据作为机器学习资料和系统性能测试。目前，人工智能企业的数据采集主要包括现场无差别采集、直接在线采集、网上公开数据源和商务采购等方式。在现场无差别采集时，由于无法提前预知采集的用户，难以获得用户的充分授权同意。而在直接在线采集时，由于人工智能系统通常由训练好的模型部署而成，对用户数据需要进行连续性地处理分析，因此很难保障用户的修改、撤回等权益。在网上公开数据源和商务采购时，由于目前数据共享、交易和流通的市场化机制不健全，因此存在一部分企业通过灰色渠道获得用户数据，而这些数据缺乏用户知情同意。

另外，随着计算机视觉、图像识别和语音识别技术的发展，以对个人生物特征数据进行采集分析的应用成为人工智能发展的重要应用方向。而在各国现行的法律规制下，人脸数据、基因数据、体型数据、语音特征等生物特征数据均属于个人敏感数据，对此类数据的采集和处理存在较大的法律合规和隐私保护风险。

现场无差别采集可能会产生过度采集

现场采集是人工智能数据采集的重要方式，广泛应用于无人驾驶、智能家居、智慧城市等场景中。其主要通过在公开环境中部署各类传感器或采集终端，以环境信息为对象进行无差别、不定向的现场实时采集。现场采集由于难以提前预知采集的数据对象和数据类型，因此在公开环境尤其是公共空间进行现场采集时，将不可避免地因采集范围的扩大化而带来过度采集问题。比如在智能网联汽车的无人驾驶场景中，自动驾驶汽车的传感器需要采集街景数据来支持智能驾驶系统的决策从而控制汽车行驶，但是这种无差别的街景数据采集必然会采集到行人的个人数据，甚至可能会采集到路边的重要基础设施分布、军事营区等重要数据给国家安全带来风险。

1.2

数据处理阶段

数据污染可能会导致人工智能算法模型失效

数据污染的本质是数据质量的技术性治理问题，是指数据与人工智能算法不适配，从而导致算法模型训练成本激增甚至完全失效。数据污染产生的原因可能包括训练数据集规模过小、多样性或代表性不足、异构化严重、数据集标注质量过低、缺乏标准化的数据治理程序、数据投毒攻击等。在数据与模型算法适配度极低的情况下，进行模型训练时将会明显带来反复优化、测试结果不稳定等问题，使得人工智能运行的成本大大提高，严重的数据污染甚至直接导致人工智能算法模型完全不可用。

恶意数据投毒攻击导致人工智能决策

恶意数据投毒是指恶意攻击者人为的在训练数据集中定向添加异常数据或是篡改数据，通过破坏原有训练数据的概率分布而导致模型产生分类或聚类错误，从而连续性引发人工智能的决策偏差或错误，最终产生恶意攻击者所期待的结果。在自动驾驶、智能工厂等对实时性要求极高的人工智能场景中，数据投毒对人工智能核心模块产生的定向干扰将会直接扩散到智能设备终端（如智能驾驶汽车的刹车装置、智能工厂的温度分析装置等），从而产生灾难性事故后果。

数据偏差可能会导致人工智能决策带有歧视性

数据偏差是指人工智能算法决策中所使用的训练数据，因地域数字化发展不平衡或社会价值的倾向偏见，使得数据所承载的信息带有难以用技术手段消除的偏差，从而导致人工智能的决策结果带有歧视性。由于当下的专用人工智能主要是通过对训练样本数据的结构和概率进行特征统计，从而构建输入数据与输出结果的相关度，而并非通过抽象化的逻辑推演获取真正的因果关系，同时机器学习算法带有“黑箱”的不可解释性，因此这种因数据偏差导致的决策歧视难以使用技术性完全解决。

比如在政府基于大数据统计分析来进行决策时，其获取的网络数据可能会更多地体现经济发达地区或人群的特征，对于数字化程度较低的边缘地域以及老幼贫弱人群的特征无法有效覆盖，从而对政策制定的公平正义产生不利影响。同时，在金融征信、医疗教育和在线招聘领域，可能会因边远地区、弱势群体和少数族裔的数据量不足、数据质量不高等原因，导致自动化决策的准确率会基于人群特征形成明显的分化，从而产生实质性的歧视影响。

1.3

数据流通阶段

人工智能多主体之间数据交互存在泄露和滥用隐患

由于人工智能产业生态体系中各主体之间进行数据交互而导致的数据泄露或滥用主要包括三种类型：

其一，由于大量人工智能企业会委托第三方公司或采用众包的方式实现海量数据的采集、标注、分析和算法优化，因而数据将会在供应链的各个主体之间形成复杂、实时的交互流通链路，可能会因为各主体数据安全能力的参差不齐，产生数据泄露或滥用的风险。

其二，当下多数人工智能初创企业普遍使用开源学习框架，即通过谷歌、微软、亚马逊等互联网巨头公开的模块化基础算法进行应用开发，因此初创企业对于开源框架、第三方软件包、数据库和其他相关组件等均存在较大的依赖性，且由于缺乏严格的测试管理和安全认证，将会面临不可预期的系统漏洞、数据泄露和供应链断供的安全风险。

其三，通过边缘计算的方式进行人工智能系统开发及数据训练是目前企业较为流行的做法趋势，人工智能云服务平台和开发者、应用者的数据交互，将会使部署在云侧和端侧的数据面临比传统信息系统更加复杂的安全挑战。

数据孤岛和数据壁垒问题可能滋生数据黑产

由于人工智能发展处于“探索期”向“成长期”过渡的阶段性特点，对于底层数据资源的竞争仍是人工智能企业最关键的市场竞争力体现。然而成熟的数据要素市场尚未形成，数据合法、便捷、安全、低成本的交易流通机制仍是空白，无法满足人工智能企业发展对于数据资源的需求。同时，在政府与企业之间、大企业与小企业之间、行业与行业之间，因数据确权、数据安全等问题存在着诸多法律和技术上的数据壁垒，形成了“数据孤岛”，不仅极大制约着人工智能的发展，也成为滋生数据黑产的主要经济动因。

人工智能产生的跨境数据流动引发数据安全问题

在全球数字经济发展不均衡的大背景下，大型科技巨头在人工智能的数据资源供给、数据分析能力、算法研发优化、产品设计应用等环节分散在不同的国家，而小型初创企业也需要诸多第三方平台和数据分析公司的支撑。因此，无论是企业内部还是与第三方合作，在人工智能技术研发和场景应用中均需要常态化、持续性、高速率、低延时的跨境数据流动。

比如在智能网联汽车领域，智能汽车产生的路况、地图、车主信息等大量数据可能回传境外的汽车制造商，进行产品优化升级和售后服务支撑，将会带来个人敏感数据和重要数据出境后的安全不可控风险。这种人工智能发展引发的跨境数据流动，不仅因各国日益趋严的数据安全规制和本地化要求而面临极大的政策障碍，更将对主权国家的国家安全、数据主权等带来复杂的挑战。

1.4

数据使用阶段

智能化的深度挖掘将会威胁公民隐私和国家安全

深度挖掘是指人工智能技术能够对用户分散、公开甚至匿名化的数据项进行关联分析，从而获得用户无意公开的信息特征和隐私。随着大数据分析和用户画像技术的快速发展，个性化服务变得越来越普遍，各类平台和企业对于用户“数字轨迹”数据的采集成为其提供精准化产品服务的核心基础，这种对于用户习惯行为的长期跟踪和深度分析将使得公民隐私面临安全风险。同时，随着人工智能关联分析技术的发展，通过对公民分散的、单个无意义的数据项进行组合关联分析，能够形成对特定个体识别和特征画像的数据集（比如活动场所、行动习惯、政治态度、宗教信仰等）。这种技术不但本身会直接威胁到用户的人身安全和隐私，若被用于政党竞选和政治宣传，将对各国现行的政治制度产生极大的冲击和颠覆。

对人工智能的逆向还原攻击将会侵犯商业秘密

逆向还原攻击是指攻击者通过人工智能应用的公开访问接口，利用一系列技术手段逆向还原出人工智能的算法模型和训练数据。由于算法模型在部署应用中通常需要将公共访问接口发布给用户使用，攻击者可以利用神经网络等人工智能算法对训练数据集的记忆，通过公共访问接口对算法模型进行黑盒访问，从而分析系统的输入输出和其他外部信息，并推测系统模型的参数及训练数据中的隐私信息。甚至部分攻击者能够通过构造出与目标模型相似度非常高的模型，进行不断地优化逼近，从而实现对算法模型的窃取，进而还原出模型训练和运行过程。逆向还原攻击对算法模型、参数特征的窃取将直接威胁企业的知识产权和网络资产安全，而其对训练数据隐私信息的窃取将对个人隐私构成安全威胁。

对抗样本攻击将会导致人工智能决策

对抗样本攻击是指在样本数据输入中添加细微、无法识别的干扰信息，导致模型在正常运转中输出一个错误的结果。对抗样本攻击既可以是网络空间的虚拟信号错误，也可以是物理世界的实体识别错误。比如在智能网联汽车的无人驾驶中，通过对实体停车或限速标志的精确更改，使得算法模型将其误识别为其他标识，从而引发交通事故。

大数据girl

关注

26
点赞
踩
30

收藏

觉得还不错? 一键收藏
0
评论
人工智能数据安全风险及评估

由于当下的专用人工智能主要是通过对训练样本数据的结构和概率进行特征统计，从而构建输入数据与输出结果的相关度，而并非通过抽象化的逻辑推演获取真正的因果关系，同时机器学习算法带有“黑箱”的不可解释性，因此这种因数据偏差导致的决策歧视难以使用技术性完全解决。其一，由于大量人工智能企业会委托第三方公司或采用众包的方式实现海量数据的采集、标注、分析和算法优化，因而数据将会在供应链的各个主体之间形成复杂、实时的交互流通链路，可能会因为各主体数据安全能力的参差不齐，产生数据泄露或滥用的风险。
复制链接

扫一扫