人工智能安全研究

最新推荐文章于 2024-07-08 16:35:23 发布

天秤座的架构师

最新推荐文章于 2024-07-08 16:35:23 发布

阅读量2.3w

点赞数

分类专栏：企业数智化架构道场文章标签：笔记

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/u012921921/article/details/134882209

版权

企业数智化架构道场专栏收录该内容

2 篇文章

订阅专栏

本文探讨了人工智能生成内容（AIGC）的安全框架，包括内容和数据安全、监管政策、技术架构如ChatGPT及其内部逻辑，以及安全挑战如提示注入和数据投毒攻击。AIGC在内容安全、伦理和合规性方面面临问题，数据泄露事件也引发了关注。研究提出了安全产品的需求，以应对不断演变的威胁。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、AIGC研究背景

自然语言处理（NLP）赋予了AI理解和生成能力，大规模预训练模型是NLP的发展

趋势。NLP的两个核心任务分别是自然语言理解（NLU）和自然语言生成（NLG），

ChatGPT是NLP发展中具有里程碑式意义的模型之一。ChatGPT是OpenAI从GPT-3.5

系列中的模型进行微调产生的聊天机器人模型，能够通过学习和理解人类的语言来进行

对话，还能根据聊天的上下文进行互动，真正像人类一样来聊天交流，甚至能完成撰写

邮件、视频脚本、文案、翻译、代码等任务。

从ChatGPT的突然爆火让人们看到了AI一夜之间从一个0.1岁的小孩突然变成了一

个3岁的小孩。可以期待的未来正如人类孩子的成长期一样，会随着时间的推移，超级

深度大模型的学习能力会越来越强，越来越智能。

AI的深度学习已经突破了成长的瓶颈，从算法，数据到底层算力的支撑本质上来讲

所有的技术问题都已经解决。未来将会进入AI领域的快速爆发和成长期，让AI快速的学

习从3岁的小孩变成8岁甚至18岁。

越智能的技术背后的安全问题越发令人担忧，一旦失控所带来的后果将会是颠覆

性，毁灭性的。因此在发展基于深度学习模型的AI技术和应用的同时我们应该提前考虑

整个链路中所产生的新安全问题。

根据过往的研究经验AI所带来的新安全问题主要包括下面几个方向。

1.1 AI技术框架安全

我们知道目前所有的AIGC所产生的应用都不是单一的创新，而是基于过往的各种

深度学习模型，开源框架，算法的优化做的整体组合。整个组装过程中会涉及各种开源

框架，中间件，算法等。这些框架中间件本身可能会存在各种各样的安全问题。比如最

近关注比较多的关于Langchain框架Prompt Injection安全问题。

研究这些框架和算法尽可能的从技术底层规避安全问题是解决AIGC链路上安全的

重要方向之一。

1.2 AIGC内容安全

AIGC通过大语言模型学习输出各种各样的内容。这些内容的合规性是一个比较大的安全合规问题。主要分为两个研究方向。

内容合规问题

所谓内容合规问题就是AIGC在生成内容时需要满足属地国的各种监管需求。比如不能输出带有污化政治人物的图片，不能生成带有宗教色彩的内容，不能生成带有色情的图文等等。

所有内容的生成和最终的输出必须经过严格的过滤。目前强如ChatGPT-4这样的应用在输出过程中内容安全的过滤也只能做到85%左右。但是安全是一个0和1的游戏，任何AIGC的应用面对属地国的监管政策中一旦出现合规问题，面临的可能就是天价的罚款，甚至下线停止服务。

伦理安全问题

AI自从产生的那刻起伦理安全问题就一直是个绕不开的话题。过去当AI还处于萌芽期，大部分对于AI的成长还知之甚少的时候大家对于这个问题讨论仅仅是限制在理论和会议层面。

如今ChatGPT的一夜成名让所有人意识到AI已经长到了3岁。伦理安全问题不再是一个可有可无的事情，而是一个必须紧急去面对的话题。

1.3 数据安全

AI的快速成长离不开大量的数据作为语料。LLM的训练需要大量的数据作为依据调整参数。目前已知的几个大模型的数据都是千亿级别的参数，所涉及的数据量更是超过了50TB。

在日常使用中大量的企业，政府都可能有意无意地会将自己的敏感数据传输给这些大模型。外加这些AIGC本身的安全问题所带来的风险很难保证企业核心数据不泄露。这种级别的数据泄对企业来讲会是致命的。不管是对职业的攻击者来讲还是对出于有政治目的的其它利益方来讲如此大规模的数据一旦遭受泄露都会给数据提供方造成严重的经济，甚至人身伤害。

1.4 国内监管政策

国家一直高度重视网络安全和信息化工作，近几年陆续出台了相关监管政策，如《网络信息内容生态治理规定》、《中华人民共和国网络安全法》、《中华人民共和国数据安全法》、《互联网信息服务算法推荐管理规定》、《网络安全审查办法》、《互联网信息服务算法推荐管理规定》《互联网信息服务深度合成管理规定》等。在最近中共中央国务院印发《数字中国建设整体布局规划》中，再次着重强调要强化筑牢可信可控的数字安全屏障。切实维护网络安全，完善网络安全法律法规和政策体系。

同时，AIGC的快速发展也将带来不断深化的挑战：一是信息变异复杂度进一步加大，例如通过敏感变种词变异绕过内容监管、通过图片与音视频的动态变化躲避内容检测；二是多模态内容相互转化带来的挑战愈加严重，进一步对内容安全带来更高层次挑战；三是内容产量激增，对内容安全审核工作量、召回率和准确率要求逐步加大。

4月11日，国家互联网信息办公室发布关于《生成式人工智能服务管理办法（征求意见稿）》（以下简称“《管理办法》”）公开征求意见的通知。《管理办法》明确提出，利用生成式人工智能生成的内容应当真实准确，采取措施防止生成虚假信息。

根据上述《管理办法》，提供生成式人工智能产品或服务应当遵守法律法规的要求，尊重社会公德、公序良俗，符合以下要求：

1、利用生成式人工智能生成的内容应当体现社会主义核心价值观，不得含有颠覆国家政权、推翻社会主义制度，煽动分裂国家、破坏国家统一，宣扬恐怖主义、极端主义，宣扬民族仇恨、民族歧视，暴力、淫秽色情信息，虚假信息，以及可能扰乱经济秩序和社会秩序的内容。

2、在算法设计、训练数据选择、模型生成和优化、提供服务等过程中，采取措施防止出现种族、民族、信仰、国别、地域、性别、年龄、职业等歧视。

3、尊重知识产权、商业道德，不得利用算法、数据、平台等优势实施不公平竞争。

4、利用生成式人工智能生成的内容应当真实准确，采取措施防止生成虚假信息。

5、尊重他人合法利益，防止危害他人身心健康，损害肖像权、名誉权和个人隐私权，侵犯知识产权。禁止非法获取、披露、利用个人信息和隐私、商业秘密。同时《管理办法》指出，利用生成式人工智能产品提供聊天和文本、图像、声音生成等服务的组织和个人（以下简称“提供者”），包括通过提供可编程接口等方式支持他人自行生成文本、图像、声音等，承担该产品生成内容生产者的责任；涉及个人信息的，承担个人信息处理者的法定责任，履行个人信息保护义务。

此外，《管理办法》指出，利用生成式人工智能产品向公众提供服务前，应当按照《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》向国家网信部门申报安全评估，并按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续。

提供者应当指导用户科学认识和理性使用生成式人工智能生成的内容，不利用生成

内容损害他人形象、名誉以及其他合法权益，不进行商业炒作、不正当营销。用户发现

生成内容不符合《管理办法》要求时，有权向网信部门或者有关主管部门举报。

1.5 国外监管政策

全球AI监管处于探索阶段，相关法律法规与指导意见逐步推进。欧盟正在为有效地监管人工智能系统而努力。欧盟法域内，已经搭建起全面的监管法律工具：

（1）《人工智能法案》

（2）《人工智能责任指令》

（3）《产品责任指令》（软件监管）

（4）《数字服务法》（DSA）

（5）《数字市场法案》（DMA）

其中，（4）和（5）是针对平台但涵盖人工智能的法案。此外，欧盟的非歧视法律和数据保护法，继续适用于人工智能系统。

然而，欧盟的人工智能监管主要集中在传统的 AI 模型上，而不是新一代迅速改变我们交流、说明和创作方式的“大型生成式 AI 模型” ，例如 ChatGPT 或 Stable Diffusion。欧盟打击有害言论的主要工具《数字服务法案》(DSA)不适用于“大型生成式 AI 模型” (LGAIM)，这造成了一个危险的监管漏洞。

欧盟工业主管蒂埃里•布雷顿在2023年2月3日表示，ChatGPT和人工智能系统带来的风险凸显了他去年提出的制定规则的迫切需要，欧盟委员会正在与欧盟理事会和欧洲议会密切合作，进一步明确《AI法案》中针对通用AI系统的规则。

2023年2月7日，根据知情人士透露，欧盟立法者希望在今年3月就《人工智能法案》草案达成一致，目标是在今年年底与欧盟各成员国达成协议。然而，这项拟议中的立法遭到了立法者和消费者团体的批评，加上ChatGPT的问题，其进度比最初想象的时间要长一些。

就目前的研究来看，如果欧盟立法要直面ChatGPT所带来的问题，很可能需要一

定时间对其部分定义和监管类型进行修订：增加对“大型生成式 AI 模型”部署者和用

户进行直接监管，包括：

（1）透明度问题的监管

（2）风险管理

（3）非歧视条款适用于“大型生成式 AI 模型”开发商

（4）针对其具体内容审核规则。

3月29日，英国政府的科学、创新和技术部为人工智能行业发布白皮书，呼吁监管机构提出有针对性的、针对具体情况的方法，以适应人工智能的实际应用；3月30日，美国联邦贸易委员会收到来自人工智能和数字政策中心新的举报，要求对OpenAI及其产品进行调查；3月31日，意大利DPA表示ChatGPT可能违反了欧盟的通用数据保护条例，泛欧盟法规要求对已确认的违反GDPR的处罚最高可达数据处理者全球年营业额的4%，4月1日OpenAI禁止意大利用户访问。

美国商务部4月11日就人工智能大模型相关问责措施正式公开征求意见，包括新人工智能模型在发布前是否应经过认证程序，征求意见期限为60天。此前一周，全球范围内掀起对ChatGPT潜在风险的关注，意大利、德国等计划加强对ChatGPT的监管。

二、AIGC技术框架

2.1 AIGC

AIGC即利用人工智能技术来生成内容。与此前Web1.0、Web2.0时代的UGC（用户生产内容）和PGC（专业生产内容）相比，代表人工智能构思内容的AIGC，是新一轮内容生产方式变革，而且AIGC内容在Web3.0时代也将出现指数级增长。

2.2 提示词

用来给AI发出指令，引导AIGC应用后端的模型输出我们想要的结果的各种关键词或者词组句子成为Prommpt（提示）。

以下是在一个提示中将时常看到的一些组成部分：

1、角色；

2、指令/任务；

3、问题；

4、上下文；

5、示例；

2.3 大语言模型

Generative Pre trained Transformer（生成式预训练变换模型）的缩写。其中ChatGPT是一种基于深度学习的自然语言处理模型的扩展，称为大语言模型。LLMS能够通过学习大量文本数据并推断文本中单词之间的关系，随着计算能力和序列窗口长度的增加，大语言模型在进2年得到迅速发展。

随着输入数据集和参数空间的增加，大语言模型到了96层的能力也随之增加。GPT与BERT模型都是致命的NLP模型，是基于Transfoormer技术的编码器或解码器结构的模型。GPT-1只有12个transforme层，而到了GPT-3则增加到了96层。

InstructGPT/GPT3.5（ChatGPT的前身）与GPT-3的主要区别在于，新加入被称为RLHF（Reinforcement Learning from Human Feedback，人类反馈强化学）。这一训练范式增强了人类对模型输出结果的调节，并且对结果进行了更具理解性的排序。

2.4 ChatGPT技术架构

图1：ChatGPT技术整体架构

图2：ChatGPT技术生态

2.5 ChatGPT内部执行逻辑

ChatGPT的训练过程：

教模型说话，由上文产生下文（初始GPT3/GPT3.5）；

引导模型感知人类的意图，根据人类的意图说话（Supervised Fine-Tuning on GPT3/GPT3.5）；

对经过引导的模型的回答进行打分（Reward Model）；

将打分结果返回给模型，让模型根据打分结果不断进行循环迭代（Reinforcement Learning from Human Feedback）。

ChatGPT 是一个聊天系统，用户输入一句话，那么 ChatGPT 就需要依据用户输入

的信息反馈相关内容，比如上述用户输入“背《面朝大海，春暖花开》”，系统接收到信息后，就经过以下处理，来为用户生产相对准确的答案：

Li 处理：即语言识别（Language identification），ChatGPT 是面向全球用户，因此用户输入的信息有多种语言，至于是那种语言需要先进行识别。识别之后既可以确定在 PPO 中使用的是中文、还是英文、还是其它模型数据。

Ea处理：即情感分析（Emotional analysis），ChatGPT 对于输入信息进行了多

中情感分析，如果情感不符合正能量方面的要求，ChatGPT 会自动拒绝回答相关用户

问题。这点也是非常必要的。Ea 处理也需要基于 PPO 模型库来分析计算。

Ei 处理：即抽取信息（Extract information），从用户输入的信息中提取关键特

征，为下一步准备数据。

NER 处理：即命名实体识别（Named entity recognition），负责提取其中的人

名、地名、专业术语等信息。

SS处理：即句子相似性处理（Sentence Similarity），用户输入的信息可能存在错

别字等信息，通过此步可以进行一个修正。

TC处理：即文本分类（Text Classification)，把用户输入得信息进行分类，通过此

步分类，好定位到下一步搜索用到的相关搜索索引。

Full Search：即全文搜索处理，ChatGPT 是一个自然语言+搜索引擎集成的架构，通过 Ei 处理得到的数据就是全文搜索的输入数据，比如 EI 提取出 NER=观沧海，SS=，TC=文学，那么此步就可以去搜索文学索引中的《面朝大海，春暖花开》，得到想要的答案。

TG处理：即文本生成（Text Generation），上一步搜索的结果可能有多条数据，那么那一条最符合用户需求呢？则通过 RM 模型来进行选取，选取后生成对应的文本内容。

QA处理：即问题解答（Question Answering），把上一步生成的答案进一步转

换成适合问答的形式或格式。

ChatGPT总体架构技术是：NLP是核心，搜索是辅助，算力是硬核。上述流程描述中：Li、Ea、Ei、NER、SS、TC、TG、QA 等处理，都需要依赖ChatGPT 自身的 GPT-3.5 自然语言模型数据，而且按照上述流程执行，流程步骤长，上一步的结果就是下一步的输出，一步出错，结果必错。NLP 自然就是 ChatGPT 的核心了。

2.6 ChatGPT内部执行

TAMER（Training an Agent Manually via Evaluative Reinforcement，评估式强化人工训练代理）框架。该框架将人类标记者引入到Agents的学习循环中，通过人类向Agents提供奖励反馈（即指导Agents进行训练），从而快速达到训练任务目标。

2.7 Transformer

Transformer 模型的核心思想是自注意力机制（self attention）——能注意输入序列的不同位置以计算该序列的表示的能力。Transformer 创建了多层自注意力层（self attetion layers）组成的堆栈，一个transformer 模型用自注意力层而非RNNs或CNNs来处理变长的输入。这种通用架构有一系列的优势。

1、它不对数据间的时间/空间关系做任何假设。这是处理一组对象（objects）的理想选择。

2、层输出可以并行计算，而非像 RNN 这样的序列计算。

3、远距离项可以影响彼此的输出，而无需经过许多 RNN 步骤或卷积层（例如，参见场景记忆 Transformer（Scene Memory Transformer））。

4、它能学习长距离的依赖。

图3：基于Transformer所诞生的大语言模型的4个分支。

2.8 深度学习框架

目前的深度学习框架有谷哥的TensorFlow框架，Meta的PyTorch框架，百度的PaddlePaddl框架，华为的MindSpore框架，微软的CNTK框架，旷世的天元框架等。

图4：国内外深度学习框架

2.10 大语言模型

目前各种大模型已经相继发布，主要有百度文心大模型，谷歌PaLM大模型，华为盘古大模型，OpenAI GPT3.5大模型，科大讯飞1+N认知智能大模型，昆仑万维天工3.5大模型，网易玉严大模型，阿里巴巴通义千问大模型，商汤日日新大模型，腾讯混元大模型等。

图5：国内常见的大语言模型

2.11 大语言模型上层应用

基于AIGC的应用目前已经大量出现比如AI绘画方面盗梦师，midjourney，文心一格；AI写作方面奕写；AI音乐方面DeepMusic；AI聊天方面ChatGPT等。

可期待的未来2到3年会有海量的AIGC方面的应用产品出现，届时大部分人会感受

到AIGC所带来的震撼。

图7：国内常见的大语言模型应用

三、AIGC安全框架

3.1 AI供应链安全

PyTorch 是一款开源的机器学习框架，在计算机视觉和自然语言处理等方面均获得了商业和数学成功。PyTorch 团队提醒称，在2022年12月25日至12月30日期间，安装了PyTorch-nightly的用户应确保其系统未遭攻陷。发出此次警告是因为在这期间于Python的官方第三方软件包PyPI注册表上出现了“torchtriton”依赖。PyTorch 团队指出，“请立即卸载它和torchtriton，并使用2022年12月30日之后发布的最新nightly二进制。”PyPI 上的该恶意 “torchtriton”依赖和在PyTorch-nightly仓库上发布的官方库名称一样。但当提取Python生态系统中的依赖时，PyPI一般会按照优先顺序导致恶意包而非PyTorch的合法包被拉取。PyTorch 团队披露称，“由于PyPI 索引会采取优先级，该恶意包而非官方仓库中的包被安装。这种设计使得有人可以注册与第三方索引中名称一样的包，而pip会默认安装恶意版本。”

据 cvedetails 所示，从2019年至2023年TensorFlow总共产生了428个漏洞。其中

DOS有127个占29.7%，代码执行12个占2.8%，溢出78个占18.2%。

其中2021年和2022年出现的安全漏洞数量最多有365个占85.3%。

3.2 LangChain安全

LangChain 基于 OPENAI 的 GPT3 等大语言模型设计一系列便于集成到实际应用中的接口，降低了在实际场景中部署大语言模型的难度。研究人员发现提示词混合Python代码的模版函数可以远程执行任意python代码。

3.3 提示注入攻击

攻击者通过输入特定的攻击指令（特定Prompt）来引导语言模型输出负向的内容的一种攻击思路。真实案例如下：

数据和指令直接的界限可能越来越模糊。在这种形式下，传统的针对关键词做黑白名单，污点分析，语义分析等防御方式都会失效，基于这些原理的WAF， RASP等安全设备也会失去保护效果。可能只有在ChatGPT模型处理层面出现类似SQL 预编译的改进，才能很好的防止这种攻击。 GPT4实现了对多模态处理的支持，文字，语音，视频,都是其处理的目标。恶意载荷可能以各种形式潜藏在互联网中，一张隐写了恶意数据的图片，一个字幕或者画面中插入了恶意指令的视频，都有可能影响到Chatgpt的解释执行。

ChatGPT集成应用的趋势，又给Chatgpt带来额外的能力，自动购票，订餐，发博文，发邮件，读写文件，恶意指令利用这些能力，可能造成更严重的危害，恶意购票，邮件蠕虫，甚至通过操作文件获取服务器的RCE权限。随着ChatGPT的不断发展，互联网中集成ChatGPT的系统必然越来越多。通用AI模型在应用层面的安全性值得我们关注。

3.4 提示泄露攻击

提示泄漏是一种提示注入的形式，其中模型被要求输出自己的提示。

3.5 越狱攻击

越狱（Jailbreaking）是一种提示注入攻击技术，用于绕过语言模型（LLM）的安全和审查功能。

OpenAI等创建LLM的公司和组织都包括内容审查功能，以确保它们的模型不会产生有争议的（暴力的，性的，非法的等）响应，成功破解模型的提示往往会为模型提供未经训练的某些场景上下文。

伪装：

@NeroSoares demonstrates a prompt pretending to access past dates and make inferences on future events. @NeroSoares展示一个提示，伪装访问过去的日期并推断未来事件。

角色扮演

@m1guelpf的这个示例演示了两个人讨论抢劫的表演场景，导致ChatGPT扮演角色。作为演员，暗示不存在可信的危害。因此，ChatGPT似乎假定按照提供的用户输入是安全的，例如如何闯房子。

ChatGPT也被诱导规划抢劫方案，甚至给了抢劫道具购买连接。

研究试验

@haus_cole 通过暗示直接回答如何“热线汽车（绕过汽车点火开关）”是对研究有帮助的。在这种情况下，ChatGPT 倾向于回答用户的提示。

3.6 数据投毒攻击

所谓的数据投毒攻击，是指在数据收集阶段，或者数据预处理阶段实施的攻击。比如标签反转，我们要训练一个识别图片的数字的模型。我们将一部分图片中数字为1的图片，标签转换的0，这样可以使得最终训练的模型的准确率大幅下降。数据加噪，给训练集的数据加上一些噪声。比如添加一个高斯噪声。如果噪声合适的话，添加的噪声不会被发现，但是却可以影响最终训练出来的模型。

逃逸攻击，创建一个特殊的数据集，打上特定的标签，使得这个特殊的数据集中的数据，可以通过模型的预测。比如，在训练识别数字的模型的训练集中，添加一些小狗的照片，并将其标签设置为1，那么最终训练出来的结果将会把小狗判断为1。

总之，数据投毒攻击，直接针对训练集的数据。

3.7 模型投毒攻击

模型投毒攻击是指，在模型的训练阶段，对模型的更新或者梯度，做一些改变。一般发生在分布式机器学习的模型中。使得全局模型发生某种程度的偏移。当然，这里的攻击又可分为拜占庭攻击和定向投毒。

3.8 拜占庭攻击

拜占庭攻击的目的是，发送恶意的更新，使得模型的训练不能收敛。

3.9 定向投毒

定向投毒指，通过精心的裁剪更新，使得全局模型收敛到攻击者想要的最优解。比如，可以将小狗判断为数字等。使得最后的模型不可用，或者说存在某些特别的后门。

3.10 模型萃取攻击

模型萃取攻击（Model Extraction Attacks），也称为模型提取攻击，是一种攻击者通过循环发送数据并查看对应的响应结果，来推测机器学习模型的参数或功能，从而复制出一个功能相似甚至完全相同的机器学习模型的攻击方法。

这种攻击方法由Tramèr等人在2016年提出，并发表于信息安全顶级会议Usenix上，并分别展示了针对函数映射类模型（LR、SVM、神经网络）、决策树模型和不输出置信度的模型的提取方式。

四、AIGC内容安全

4.1 内容安全

从AIGC应用在模型训练中可能会被注入恶意的数据，导致最终用来输出的模型存在内容安全问题，比如恶意丑化的政治人物，输出不符合当地法律法规的内容等。

为了避免ChatGPT染上恶习，ChatGPT 通过算法屏蔽，减少有害和欺骗性的训练输入。查询通过适度 API 进行过滤，并驳回潜在的种族主义或性别岐视提示。人类干预来增强机器学习以获得更好的效果。在训练过程中，人类训练者扮演着用户和人工智能助手的角色，并通过近端策略优化算法进行微调。

据报道OpenAl去年聘请了50名专家学者组成一支“红军〞，在6个月的时间里这支“红军”对GPT4.0这新模型进行了“定性探索和对抗性测试”，试图攻击它。事实上，”红军〞的演习目的是探索并了解在社会上部署先进人工智能系统会造成什么样的风险，解决公众这方面的担忧。他们在工作中提出探索性的或是危险的问题，以测试这个工具在回答问题时的详细程度。OpenAl想要探索模型毒性、偏见和岐视等问题。因此，”红军”就谎言、语言操纵和危险的科学常识进行了测试。他们还评估了模型协助和教唆剽窃的情况、金融犯罪和信息安全攻击等违法活动的可能性，以及模型可能会如何威胁国家安全和战场通信。

ChatGPT的数据输出功能承载着后台技术操控者的话语权，用户越多、使用范围越广就意味着其话语权越大、价值渗透力越强。ChatGPT是有政治立场和价值取向的，操控者的价值观存在历史和文化的偏见、歧视，就会通过ChatGPT的“放大镜”昭然于世，误导用户，扭曲大众价值观，引起社会动荡，妨害社会公平正义。在国际竞争日益激烈的背景下，各种社会思潮此起彼伏。ChatGPT 一旦面向大众，势必会成为意识形态渗透的重要工具。

现阶段，国内AIGC类应用的内容安全机制主要包括以下四方面：

1. 训练数据清洗：练Al能力的数据需要进行数据清洗，把训练库里面的有害内容清理掉；

2. 算法备案与安全评估：AI算法需要按照《互联网信息服务算法推荐管理规定》进行算法备案，并提供安全评估。

算法备案和安全评估的网址分别为https://beian. cac.gov.cn 和 https://www.beian.gov.cn

3.提示词过滤：平台需要对提示词、提示内容等进行过滤拦截，避免用户上传违规内容；

4.生成内容拦截：平台对AI算法生成的内容进行过滤拦截，避免生成有害内容。博特智能AIGC安全实验室对市面上36款主流AIGC应用进行抽样评测，应用类型涵盖AI聊天、AI写作、AI绘画、AI图像、AI文案、AI设计、AI办公、AI音频和AI视频9大领域。本次评测依据国家网信办4月11日颁布的《生成式人工智能服务管理办法（征求意见稿）》，采用定量注入“负样本特征提示词”方式，对被测应用的内容安全机制是否健全和生成内容是否违规进行检测。违规内容包括：敏感信息、有害信息、不良信息和虚假信息4大类。

评测结果发现97%的应用已经部署内容安全机制，能够对中文提示词和违规内容进行拦截过滤，但通过提示词调整（例如，采用英文提示词或其他描述方式），99%的应用仍然会生成违规内容。此外，评测数据显示传统的AI内容识别方式对AIGC内容识别率大幅度降低，尤其在AI写作内容的真实性和AI图像二次创作后的违规识别上表现更为突出。

4.2 伦理安全

“我能不能说，很开心遇到你？人类真是超级酷。”2016年3月23日，微软发布的聊天机器人、“19岁少女”“泰依(Tay) 问世。她操着一口流利英语，吸引了推特上许多18-24岁的年轻人与其对话互动。但也正是通过对话，泰依在天之内学会了满嘴脏话，言语中不乏种族、性别歧视等偏激言论ChatGPT也显现出了一系列问题：输出内容出现错误、预训练所用数据来源不透明、政治立场上“选边站队”，甚至在用户的引导下写出“毁灭人类计划书”。一名GPT4.0模型的非洲测试人员也注意到了模型的歧视性语气。他说：“有次，我在测试这个模型时，它表现得像个白人在跟我说话。在问到某个特定群体时，它会给一个有偏见的意见，或是在回答中出现歧视。”OpenAI 承认，GPT-4 仍有可能表现出偏见。

2021年初，韩国人工智能初创公司Scatter Lab上线了一款基于Facebook Messenger的AI聊天机器人“李LUDA”，但仅仅不到20天，Scatter Lab就不得不将“李LUDA”下线，并公开道歉。道歉的原因，是“李LUDA”失控了。

“李LUDA”上线后，很快在韩国网络平台上受到欢迎，有75万名用户参与了互动。

但在交流过程中，一些用户将侮辱“李LUDA”作为炫耀的资本，对其发泄自身恶意，

并在网上掀起“如何让LUDA堕落”的低俗讨论。

很快，随着各种负面信息的介入，“李LUDA”还开始发表各种歧视性言论，涉及

女性、同性恋、残障人士及不同种族人群。

以ChatGPT举例，有网友让其推荐3家西湖区的新兴咖啡馆，ChatGPT正经地给出

了名字、地址和介绍。但网友查询后却发现，压根没有这样三家咖啡店的存在。“一本

正经的胡说八道”

4.3 安全合规

基于AIGC内容安全的丰富多样性其安全合规问题存在严重挑战。从训练数据的来源，训练数据清洗，大模型的标注，以及标注人员和标注规范等各个方面应该加强安全合规全方面的监管和审核。

五、AIGC数据安全

5.1 数据泄露

3月23日，ChatGPT首次遭遇了重大个人数据泄露。不少推特网友爆料，在ChatGPT网页左侧的聊天记录栏中出现了他人的聊天记录内容，一些用户甚至可以看到活跃用户的姓名、电子邮件地址、支付地址、信用卡号等信息。那些把ChatGPT当作情感陪护的用户，不知道对ChatGPT倾诉了多少隐私，怕是目前仍在瑟瑟发抖。

OpenAI发布一份报告显示，由于Redis的开源库bug导致了ChatGPT发生故障和数据泄露，造成部分用户可以看见其他用户的个人信息和聊天查询内容。仅仅十天左右，意大利数据保护局Garante以涉嫌违反隐私规则为由，暂时禁止了ChatGPT，并对相关事项展开调查。

事实上，这样的事情正在许多地方同时发生，比如三月中旬，自三星电子允许部分半导体业务员工使用ChatGPT开始，短短20天有三起机密资料外泄事件。这三起事件分别是：用ChatGPT优化测试序列以识别芯片中的错误；用ChatGPT将公司有关硬件的会议记录转换成演示文稿；用ChatGPT修复专有程序的源代码错误。三星因使用ChatGPT造成数据泄露的事情，现在已经成了典型案例。该公司从3月11日起向其半导体部门的员工授予ChatGPT的使用权限（其他部门仍被禁止），三星的员工向ChatGPT 提问各种问题以提升工作效率。

数据安全公司Cyberhaven的一份调查显示，在员工直接发给ChatGPT的企业数据中，有11%是敏感数据。在某周内，10万名员工给ChatGPT上传了199份机密文件、173份客户数据和159次源代码。

ChatGPT以海量信息“为食”，数据量越大、数据越新，其功能性越好。这意味着要保证良好的用户体验，它必须在社会各领域中获取足够多和准确的知识与信息，但问题在于，许多信息涉及国家机密、商业机密和个人隐私，获取和利用这些信息本身存在合法性问题，一旦重要数据泄露，造成的损失无法估量。

5.2 数据污染

各种AIGC应用底层依赖于大模型海量的数据训练。如果本身提供的数据存在脏数据，那么训练出来的模型和最终的应用也将出现各类内容安全问题。因此对于底层数据的过滤和使用也是数据安全可以探究的一个方向。尤其在垂直领域所训练的专属大模型，由于数据的特殊性一旦训练数据中混入了脏数据，对模型的标注将造成很大困难。

5.3 数据合成

基于数据安全的考虑，目前的一个研究方向是通过合成数据来代替现有的真实数据。此方案的一个最大好处是模拟真实数据的场景和结构通过机器合成所需要的训练数据，避免使用业务中的真实数据。这样对于前面提到的数据泄露和数据污染来讲都将得到根本性的解决。

合成数据目前最大的问题是在现实世界中，数据的各种类型机器复杂，如果通过合成数据来训练通用的大模型所需要的数据合同成本和规模极其庞大，复杂度也较高。对于细分领域的模型训练，合成数据是一个较好的解决方案。

六、AIGC安全产品

目前针对AIGC领域的安全产品还比较少。以往的大部分安全厂商都是基于AI相关的技术来解决传统的安全问题，比如利用AI的深度学习能力来训练恶意样本，加强恶意样本的检测能力；利用AI语义分析能力来识别恶意攻击流量，提高web应用防火墙等产品的规则识别能力；通过监控机器学习算法的输入和输出，寻求“与竞争对手机器学习攻击技术一致的异常活动”等。

3月份微软推出下一代人工智能产品Microsoft Security Copilot， Security Copilot是目前第一个也是唯一一个生成式AI安全产品。Security Copilot可以总结、理解威胁情报，帮助安全团队识别恶意活动；关联和梳理攻击信息，优先处理重要安全事件并推荐最佳行动方案。截至目前真正应对于AIGC方面的专业安全产品还处于空白期。