一、大模型备案定义
在大模型产品面向公众开放、投入商业应用之前,必须经过网信办等监管部门严格的备案审批流程。这一举措旨在强化对生成式人工智能服务的合规管理,引导人工智能技术稳健、有序发展,为构建安全、可靠的人工智能服务生态筑牢根基。通过备案审批,监管部门能够有效监督大模型的开发、应用过程,确保其符合法律法规和社会道德规范,为广大用户营造健康、可信的使用环境。
二、与互联网算法备案(深度合成)的区别
深度合成技术
深度合成技术依托深度学习、虚拟现实等前沿技术,对已有的数据进行组合、拼接,从而制作网络信息。然而,它的局限性在于无法生成全新的内容,仅仅是对现有数据的加工整合。这类技术主要适用于具有舆论属性或社会动员能力的深度合成服务提供者和技术支持者,例如在一些视频特效制作、图像修复等领域发挥作用。
生成式人工智能技术
生成式人工智能技术则具备强大的内容生成能力,其运行逻辑遵循 “理解 - 创作” 模式。它能够对输入的数据进行深度理解和分析,进而演绎创新,生成文本、图片、音频、视频等丰富多样的全新内容。这一特性使得它广泛应用于内容创作、智能客服、虚拟助手等领域。适用于提供具有舆论属性或社会动员能力的生成式人工智能服务的企业,比如大型语言模型在智能写作、智能问答方面的应用。
三、备案适用情况
建议先进行大模型备案的情况
- 自主研发与数据优势:企业自主研发大模型,或基于开源模型进行深度二次微调、魔改,并且拥有海量的训练数据,这类模型往往具备独特的性能和应用价值,需要进行备案以确保合规性。
- 规模效应:企业自身规模庞大,或其模型服务应用程序在市场上具有广泛影响力,用户基数大、服务范围广,为保障公共利益和社会稳定,应优先进行大模型备案。
- 商业应用导向:企业以生成式人工智能作为核心主营业务,并将其广泛应用于商业宣传、市场营销等领域,通过大模型提供产品或服务,需要接受监管,确保商业活动合法合规。
- 政策利好驱动:企业所在地出台了针对大模型备案的补贴政策,为享受政策红利,推动企业技术创新和业务发展,应积极进行备案。
- 政策引导:收到相关部门,如地方网信办、工业和信息化局等的正式通知或推荐,企业应按照要求及时进行大模型备案,响应政策号召。
通常做算法备案即可的情况
- 业务无关:不涉及生成式人工智能大模型业务的企业,其业务主要依赖传统算法或技术,无需进行大模型备案,仅需完成常规的算法备案即可。
- 服务范围有限:提供的生成式人工智能服务不具备舆论属性或社会动员能力,仅供企业内部自用,用于提升内部办公效率、优化业务流程;或仅服务少数 B 端客户,对公众影响较小,这类情况通常做算法备案即可。
- 单纯调用接口:只是单纯调用第三方大模型 API 接口的企业,由于自身不涉及模型的研发和训练,仅需进行算法备案和登记备案,明确接口使用规范和数据传输安全要求。
四、备案材料清单
《生成式人工智能(大语言模型)上线备案申请表》
作为备案申请的核心文件,申请表要求详细填写大模型的基本信息,包括模型名称、版本、应用领域等;研制过程中的技术路线、研发团队情况;服务内容,如服务对象、服务方式、服务功能等;安全防范措施,涵盖数据安全、算法安全、应用安全等方面;安全评估结果,呈现模型在安全性、可靠性、合规性等方面的评估结论;以及自愿承诺,表明企业遵守相关法律法规和监管要求的决心和态度。填写时务必确保内容真实、准确、完整,为后续审核提供全面、可靠的依据。
《安全自评估报告》
由专业机构或企业内部专业团队完成,对大模型在语料处理、模型训练、服务提供等全生命周期的安全性进行全面、深入评估。评估内容涵盖数据隐私保护,确保用户数据在收集、存储、使用、传输等环节的安全性;算法偏见识别与纠正,避免模型因算法偏见产生不公平、歧视性的结果;有害信息过滤机制,有效拦截违法、不良信息;应急响应预案,针对可能出现的安全事件制定快速响应和处置措施。通过全面的安全自评估,保障大模型在服务过程中不侵犯用户权益,不传播违法违规内容。
《模型服务协议》
作为保障用户权益的关键法律文件,模型服务协议需明确服务范围,界定模型提供的具体服务内容和边界;双方权利义务,规定企业和用户在服务过程中的权利和责任;数据使用与保护,明确数据的收集、使用、共享、存储等规则,保障用户数据安全;违约责任,约定双方在违反协议时应承担的法律后果。建议由专业法务团队仔细审阅,确保协议合法合规,有效维护用户和企业双方的合法利益。
《语料标注规则》
语料标注是大模型训练的基石,其质量直接决定模型的准确性和可靠性。提交时需详细介绍标注团队资质,包括团队成员的专业背景、标注经验等;标注细则,明确标注的标准、规范和要求;标注流程,展示从数据采集到标注完成的全过程,确保语料来源合法、标注过程规范、标注结果准确。只有高质量的语料标注,才能为大模型训练提供坚实的数据基础。
《关键词拦截列表》
为有效过滤有害信息,企业和开发者需精心准备一份详尽的拦截关键词列表,涵盖政治敏感、色情低俗、暴力恐怖、谣言虚假等各类安全风险词汇。列表应至少包含 10000 个关键词,并根据社会热点、网络舆情等新的风险态势定期更新,确保模型在生成内容时能够及时识别和过滤有害信息,维护网络环境的健康和安全。
《评估测试题集》
用于检验大模型在生成内容时的安全性能,包括生成内容的正面示例,展示模型能够生成符合要求、积极健康的内容;应拒答的负面内容,测试模型对违法、不良信息的识别和拒绝能力;以及非拒答测试题库,评估模型在正常业务场景下的表现。测试题集需严格按照《生成式人工智能服务安全基本要求》编制,确保测试结果客观、准确,真实反映大模型的安全性能。
五、安全评估要点
语料安全
- 来源安全:采用合法来源语料,对语料内容质量设定量化标准,如规定违法不良信息占比超过 5% 的语料源不应采集或使用;积极拓展语料来源渠道,提升语料来源多样性,合理搭配不同领域、不同类型的语料;服务提供者需具备合法处理依据,自采语料留存详尽采集记录,严禁采集法律法规禁止采集的语料,从源头上保障语料安全。
- 内容安全:综合运用关键词过滤、分类模型及人工抽检等手段,对语料内容进行全面甄别和过滤,及时清除违法不良语料;构建完善的知识产权管理策略,防止语料侵权行为;严格遵守个人信息保护法律法规,确保个人信息处理行为合法合规。
- 标注安全:定期对标注人员开展涵盖数据安全、法律法规、标注规范等多方面内容的安全培训,并建立科学合理的考核机制,提升标注人员的专业素养和安全意识;至少划分数据标注与审核两类职能,在同一标注任务中,同一人员不得兼任多职,确保标注和审核的独立性和公正性;标注规则涵盖多方面内容,贯穿标注与审核环节,确保标注工作的一致性和准确性;功能性标注需进行人工抽检,安全性标注要求每条语料至少经一名审核人员审核通过,保障标注质量。
模型安全
- 生成内容安全性:对使用者每次输入信息进行实时安全监测,运用先进的算法和技术,引导模型生成积极正向内容;构建常态化检测测评手段,定期对模型生成内容进行安全性评估,及时发现并处置安全问题;借助指令微调、强化学习等技术手段,持续优化模型,提升其生成内容的安全性。
- 生成内容准确性:运用前沿技术手段提升生成内容的实时性与精准度,通过不断优化校正模型,降低生成内容不准确或虚构情形的出现概率,确保模型生成内容真实可靠、符合用户需求。
- 生成内容可靠性:采取技术措施优化生成内容格式框架合理性,提高有效内容含量,增强模型对使用者的辅助效能,使生成内容能够真正为用户提供有价值的信息和帮助。
安全措施
- 模型适用性:在服务范畴内应用生成式人工智能服务时,充分论证模型的必要性、适用性与安全性,结合具体业务场景和风险评估结果,选择合适的模型;在金融、医疗、政务等重要领域应用时,配备适配风险程度的保护措施,确保模型运行安全可靠;面向未成年群体的服务,专门设立未成年人保护机制,过滤不适宜未成年人的内容,保障未成年人身心健康。
- 服务透明度:以交互界面提供服务的,在网站首页、应用程序显著位置向社会公开相关信息,如模型的基本原理、技术特点、服务内容等,以及基础模型使用状况,包括模型版本、训练数据来源等;以可编程接口形式提供服务的,在说明文档中详细公开上述信息,让用户充分了解服务情况。
- 用户数据处理:为用户构建便捷途径关闭输入信息用于模型训练的功能,在界面设计或用户交互中采用醒目的方式显著告知用户输入信息收集状态,并清晰展示关闭训练信息的选项或指令,充分尊重用户的知情权和选择权。
- 用户管理:借助关键词筛查或分类模型等手段实时监测用户输入信息,对包含违法、不良信息的输入实施拒绝回答机制,从源头上防范有害内容传播,维护健康的网络环境。
六、备案流程和时长
向属地网信办报备,获取备案表
企业向所在地的省级网信办提交备案申请,提交时需确保申请材料完整、准确,涵盖企业基本信息、大模型相关信息等。网信办审核申请材料后,向符合要求的企业发放大模型上线备案表,此为备案流程的起始关键步骤。
根据表格和评估要点准备材料
获得备案表后,企业按照表格要求及评估要点,组织技术团队、法务团队、数据团队等多部门协同合作。技术团队负责准备技术相关材料,如模型技术文档、安全自评估报告等;法务团队负责审核和准备法律文件,如模型服务协议等;数据团队负责整理和提供数据相关材料,如语料标注规则、关键词拦截列表等。确保材料真实、全面、符合要求。
企业内部评估,编写材料,准备测试账号
企业内部进行全面自评估,从技术、安全、合规等多个维度对大模型进行审查,确保模型达到备案要求。同时,编写详细的材料说明,对各项材料进行解释和补充,方便审核人员理解。准备测试账号,账号需具备代表性的权限和数据,方便审核人员验证模型实际运行情况,包括模型功能、安全性、准确性等方面。
提交材料和测试账号给属地网信办审核
完成材料准备后,企业将相关材料和测试账号提交给属地网信办审核。审核期间,企业保持与审核人员的密切沟通,及时回应审核人员提出的问题和反馈,根据要求补充或调整材料。
审核通过,上报中央网信办;未通过,根据反馈调整
属地网信办审核通过后,将备案材料上报至中央网信办复审。若审核未通过,企业需认真研究反馈意见,组织相关部门和人员对问题进行分析和整改,重新提交材料,直至审核通过。
中央网信办复审,通过下发备案号;未通过,重新备案
中央网信办对上报材料进行严格复审,复审通过则下发备案号,标志备案成功,企业可正式开展大模型相关业务;若复审未通过,企业需根据反馈意见再次深入调整,重新提交备案申请,直至满足备案要求。预计整个备案流程总耗时 4-7 个月,在高效协同、准备充分的情况下,最快可压缩至 3-4 个月。
七、选择服务商注意事项
大模型备案工作涉及复杂的技术、法律、数据等多方面专业知识,缺乏经验很容易导致材料被打回,甚至模型被拉黑,影响企业业务开展。在选择服务商时,应优先选择以技术服务为核心的专业机构。这类机构拥有专业的技术团队、丰富的备案经验和完善的服务体系,能够为企业提供全方位、一站式的备案服务。避免选择非技术服务行业的中介机构,这类机构往往缺乏专业技术能力,可能导致对接繁琐,沟通成本高;费用高昂,增加企业备案成本;且无法顺利完成备案工作,甚至可能因不专业操作引发法律纠纷,给企业带来不必要的风险和损失。