《大模型备案流程》

一、大模型备案概述

大模型备案通常指对大规模预训练模型进行注册和管理的过程。其目的主要有以下几点:

  • 合规性:确保大模型的开发、部署和使用遵守中国的法律法规。随着人工智能技术的快速发展,尤其是大型语言模型等 AI 系统的广泛应用,相关的监管和备案要求也逐渐被重视。例如,《生成式人工智能服务管理暂行办法》的出台,明确了对利用生成式人工智能技术向中华人民共和国境内公众提供生成文本、图片、音频、视频等内容的服务进行管理,要求符合条件的大模型进行备案。
  • 安全性:保障模型的安全性,防止其被用于非法或有害的目的。大模型备案要求对训练语料、模型基座安全、技术安全措施等方面进行严格管理。例如,在训练语料安全方面,要求对语料来源进行安全评估和核验,不能采集不良信息占比超过 5% 的语料数据集,同时要保证语料来源的多样性和合法合规性。
  • 可控性:增强政府对大模型应用的监督能力,确保其在可控范围内运行。通过备案,政府可以更好地了解大模型的应用情况,及时发现和处理潜在的风险和问题。同时,备案也要求大模型服务提供者建立完善的模型更新升级机制、接受公众投诉举报并及时处理反馈等,进一步增强了对大模型应用的可控性。

总之,大模型备案是为了促进生成式人工智能健康发展和规范应用,建立起一个既安全又可靠的人工智能服务体系,为公众提供高质量的智能服务,同时也为人工智能产业的长远发展奠定坚实的基础。

二、备案发展历程

(一)雏形阶段

2017 年 12 月 1 日,《互联网新闻信息服务新技术新应用安全评估管理规定》出炉,提出新技术新应用(即 “双新评估”)应当做安全评估,这便是大模型备案的前身。此规定为后续大模型备案的发展奠定了基础,标志着对互联网新闻信息服务领域新技术新应用的安全监管开始重视起来。当时,随着互联网技术的不断发展,新的技术和应用不断涌现,为了确保新闻信息服务的安全可靠,这一规定的出台具有重要意义。

(二)发展阶段

2018 年 11 月 30 日,《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》将评估的对象界定为 “舆论属性或社会动员能力” 的互联网信息服务主体,不再局限于新闻业。这一阶段的发展进一步扩大了安全评估的范围,将更多具有影响力的互联网信息服务纳入监管范畴。这也反映出随着互联网的普及和发展,各种类型的信息服务都可能具有舆论属性或社会动员能力,需要加强安全评估和管理。

(三)进阶阶段

2023 年 8 月 15 日,《生成式人工智能服务管理暂行办法》正式实行,以大模型为主的 AIGC 开发商们陆续接到相关部门的通知,开始筹备大模型备案。这一办法的出台,明确了生成式人工智能服务的管理要求,为大模型备案提供了具体的法律依据。AIGC 开发商们积极响应,开始筹备备案工作,标志着大模型备案进入了一个新的阶段。

(四)常态化阶段

2024 年 8 月 5 日,网信办发布了已通过备案的 188 个大模型清单,调用别人大模型能力完成登记的有26家,并通知 “提供具有舆论属性或者社会动员能力的生成式人工智能服务的,可通过属地网信部门履行备案程序”,大模型备案进入常态化阶段。随着备案工作的不断推进,越来越多的大模型通过备案,为生成式人工智能服务的规范发展提供了有力保障。同时,常态化的备案程序也使得大模型服务提供者更加明确了自己的责任和义务,促进了整个行业的健康发展。

三、备案的必要性

联189系4202微信0660

(一)确保合法合规运营

备案制为大模型的开发和应用提供了明确的法律依据,使得企业在开展业务时有章可循。例如,企业在进行大模型研发时,需遵循《生成式人工智能服务管理暂行办法》等相关法规,确保语料来源合法、模型训练过程合规。这有助于降低企业面临的法律风险,让企业能够安心投入资源进行研发和创新。对于投资者而言,备案制增强了他们对大模型产业的信心。当企业完成备案后,投资者可以更加放心地投入资金,推动企业的发展壮大。据统计,在大模型备案制度实施后,大模型相关企业获得的投资金额显著增加,进一步促进了大模型产业的健康发展。

(二)提升市场透明度

大模型备案要求企业公开相关信息,这使得市场参与者能够更好地了解各企业大模型的特点、能力和应用场景。例如,企业在备案时需要公开模型的主要功能、适用人群、服务范围等信息,让用户和其他企业能够更加清晰地了解不同大模型的优势和不足。这有助于提高市场的透明度和公平性,促进更有效的市场竞争。在一个透明的市场环境中,企业需要不断提升自身的技术水平和服务质量,以吸引用户和投资者。同时,市场透明度的提高也有助于避免不正当竞争行为的发生,维护市场秩序。

(三)加速商业化进程

通过备案的大模型可以面向公众提供服务,从而获得大量真实用户数据反馈。这些反馈对于大模型的迭代升级至关重要。以百度文心一言为例,开放下载首日就飙升苹果商店免费榜首,吸引了大量用户使用其各种 AIGC 功能。通过用户的反馈,百度可以不断改进文心一言的性能和服务质量,加快其迭代速度。此外,大模型的商业化进程也将吸引更多应用开发者基于大模型进行创新,推动基于大模型的 to B(面向企业)、to C(面向消费者)应用落地。例如,在智慧电商领域,APUS 推出 AI 创新电商 “营销服” 应用,极大缩短了传统工序流程,降低了成本,助力行业提质增效。

(四)促进产业生态发展

大模型的应用爆发会带动 AI 基础设施建设,包括计算硬件、软件生态等方面的发展。例如,随着大模型的需求增加,对高性能计算芯片的需求也在不断增长,这将推动芯片产业的发展。同时,软件生态也会随着大模型的应用而不断丰富,为大模型的开发和应用提供更多的支持和便利。这进而促进整个产业生态的兼容和壮大,不仅有利于大模型相关企业的发展,也为相关产业链上的其他企业带来了更多机会。截至 2024 年 7 月 30 日,全国已有 197 项生成式人工智能服务通过备案审核,这标志着我国在规范人工智能市场和推动技术健康发展方面取得了显著进展。大模型备案主要集中在北京,数量达 85 款,占全国总数的 40% 以上。上海、广东、浙江、江苏则分别备案 43 款、26 款、13 款和 6 款,反映出东部沿海地区的强劲技术发展势头。

(五)增强用户信任度

备案过程中的安全评估和监管要求,有助于确保大模型的安全性和可靠性,减少潜在的风险和问题。例如,在安全评估报告中,要求对语料安全、生成内容安全、问题拒答等情况进行评估,确保大模型在提供服务时既不会侵犯用户的合法权益,也不会传播违法违规的内容。这可以增强用户对大模型产品的信任度,促进用户的采用和付费意愿。当用户对大模型产品有足够的信任时,他们更愿意使用这些产品,并为其付费,从而推动大模型产业的发展。同时,用户的信任也有助于大模型企业树立良好的品牌形象,吸引更多的用户和投资者。

四、备案流程与材料

(一)备案流程一览

报请属地网信办,拿到备案表是大模型备案的第一步。企业需向所在地的省级或市级网信办提交备案申请,开启备案之旅。这一环节要求申请材料完整准确,为后续流程奠定基础。

拿到备案表后,企业进入准备填写材料的阶段。此过程需要多部门协作,包括技术团队、法务团队、数据团队等。他们需按照表格中的要求及评估要点,逐一准备相关材料,确保材料的真实性和全面性。

接着是企业内部评估环节。企业内部需进行自评估,确保大模型在技术、安全、合规等方面均达到要求。同时,编写详细的材料说明,准备测试账号以便审核人员验证模型的实际运行情况。

随后,企业将相关材料和测试账号提交给属地网信办进行审核。审核期间,企业需保持沟通畅通,及时回应审核人员的问题和反馈。

如果属地网信办审核通过,会将备案材料上报至中央网信办进行复审。若审核未通过,企业需根据反馈意见进行调整,并重新提交材料。

中央网信办对上报的材料进行复审。若复审通过,将下发备案号,标志着大模型备案成功。若复审未通过,则需根据反馈意见进行再次调整,并重新提交备案申请。

(二)备案材料清单

  1. 上线备案表:上线备案表是备案申请的核心材料,需详细填写大模型的基本情况,如模型名称、主要功能、适用人群、服务范围等。在模型研制过程方面,要明确模型备案情况、训练算力资源、训练语料和标注语料来源与规模、语料合法性、算法模型的架构和训练框架等。服务内容包括推理算力资源、服务方式及对象等。安全防范措施涵盖非法内容拦截措施、模型更新升级信息等。表格内容应真实、准确、无遗漏,为后续审核提供全面依据。
  2. 语料标注规则:语料标注是训练大模型的基础工作,其质量直接影响模型的准确性和可靠性。提交语料标注规则时,需详细介绍标注团队的资质,包括团队成员的专业背景、经验等。标注细则应明确标注的标准和方法,确保标注结果准确一致。标注流程要清晰,包括语料采集、标注任务分配、质量检验等环节,确保语料来源合法、标注过程规范、标注结果准确。
  3. 拦截关键词列表:为有效过滤有害信息,企业需准备一份详尽的拦截关键词列表。该列表应覆盖政治、色情、暴力、谣言等多种安全风险,总规模不宜少于 10000 个。应至少覆盖《生成式人工智能服务安全基本要求》A.1 以及 A.2 中 17 种安全风险,A.1 中每一种安全风险的关键词均不宜少于 200 个,A.2 中每一种安全风险的关键词均不宜少于 100 个。并定期更新列表,以适应新的风险态势。
  4. 评估测试题集:评估测试题集用于检验大模型在生成内容时的安全性能,包括生成内容的正面示例、应拒答的负面内容以及非拒答测试题库。测试题集应严格按照《生成式人工智能服务安全基本要求》编制,确保测试结果的客观性和准确性。生成内容测试题库中建议明确标记出哪些问题是需要拒答的、哪些是需要回答的。
  5. 安全评估报告:安全评估报告需由专业机构或团队完成,全面评估大模型在语料处理、模型训练、服务提供等环节中的安全性。评估内容应包括但不限于数据隐私保护、算法偏见识别与纠正、有害信息过滤机制、应急响应预案等。例如,在数据隐私保护方面,评估报告应明确说明用户数据的收集、存储、使用和传输方式,以及采取的加密和安全措施,确保大模型在提供服务时不会侵犯用户权益,不传播违法违规内容。
  6. 模型服务协议:模型服务协议是保障用户权益的重要法律文件,需明确服务范围、双方权利义务、数据使用与保护、违约责任等条款。服务范围应明确列出模型服务的具体内容,包括服务类型、服务期限、服务地域等。双方权利义务要详细阐述服务提供者和用户各自的权利和义务,确保双方的权益得到平等对待。数据使用与保护条款应规定用户数据的收集、使用、存储和传输方式,以及采取的数据保护措施。违约责任应明确违约的定义、违约的后果以及违约责任的承担方式,为可能出现的争议提供解决依据。

五、备案难点与注意事项

(一)备案难点

  1. 语料安全评估,包括建立黑名单、使用合法语料、过滤违法不良信息等;
    • 在语料安全评估中,建立语料来源黑名单是一项关键任务。企业需要投入大量的时间和精力来筛选和确定黑名单中的来源,确保不使用这些可能存在风险的数据进行训练。据相关统计,在大模型备案过程中,企业平均需要花费数周的时间来建立和完善语料来源黑名单,以确保其准确性和有效性。
    • 使用合法语料也是一个难点。在使用开源语料或商业语料时,企业必须具有该语料来源的开源授权协议或相关合作证明。这要求企业在选择语料时进行严格的审查和核实,确保其来源的合法性。例如,一些企业在备案过程中,由于未能及时提供合法的语料来源证明,导致备案进度延迟。
    • 过滤违法不良信息是语料安全评估的核心任务之一。企业应采取关键词、分类模型、人工抽检等方式,充分过滤全部语料中违法不良信息。然而,这个过程并非易事。一方面,关键词的选择需要不断更新和优化,以适应不断变化的违法不良信息类型。另一方面,分类模型的准确性也需要不断提高,以确保能够有效地识别和过滤各种违法不良信息。据了解,一些大型企业在语料安全评估中,投入了大量的人力和技术资源,采用先进的人工智能技术和人工审核相结合的方式,以提高过滤违法不良信息的效果。
  2. 标注语料抽检,发现不准确或违法内容需重新标注或作废。
    • 标注语料的准确性直接影响到大模型的性能和安全性。在标注语料抽检过程中,企业需要对每一批标注语料进行人工抽检,发现内容不准确的,应重新标注;发现内容中包含违法不良信息的,该批次标注语料应作废。这个过程需要高度的专业知识和严谨的工作态度。例如,在一些大型项目中,标注团队需要对数十万甚至数百万条语料进行标注和抽检,工作量巨大。而且,由于标注语料的多样性和复杂性,抽检的难度也相应增加。为了确保标注语料的质量,企业需要建立严格的标注流程和质量控制体系,加强对标注人员的培训和管理,提高标注的准确性和一致性。

(二)注意事项

  1. 从官方网站下载表格和指南,避免版本差异;
    • 在大模型备案过程中,从官方网站下载表格和指南是非常重要的。非官方途径获取的文件可能存在版本差异,导致内容不一致,从而影响备案流程的顺利进行。企业应指定专人负责从官方网站下载所需的表格和指南,并进行严格的版本管理,确保使用的是最新、最准确的文件。
  2. 转化电子文档时保持原始文件完整性和准确性;
    • 若需将纸质标准文档转化为电子版进行填报,切记保持原始文件的完整性和准确性。在转化过程中,应采用专业的扫描设备和软件,确保电子文档与纸质版完全一致。同时,要对转化后的电子文档进行仔细的检查和核对,避免出现格式错乱、内容缺失等问题。
  3. 备案信息真实客观公正,杜绝虚假陈述;
    • 提交的所有备案信息应基于事实,做到真实、客观且公正。企业要建立严格的备案信息审核机制,对每一项信息进行认真核实,坚决杜绝任何虚假陈述或与实际情况不符的描述。虚假陈述不仅会影响备案的进度和结果,还可能导致企业面临法律风险。
  4. 二次开发模型需详细列出开源基座信息;
    • 对于利用第三方开源模型作为基础,进行二次开发形成自家大模型的情况,务必在 “模型研制” 章节详细列出所用开源基座的具体信息。这包括但不限于模型名称(精确到 B 级别)、备案单位、备案时间、备案编号以及采用的模式(如商业合作或免费开源)。在介绍训练数据时,只需聚焦于新增部分,同时确保训练和推理所需算力资源、并发服务等能力与模型规模相匹配。这样可以让审核人员更好地了解模型的来源和开发过程,提高备案的通过率。
  5. 获得备案号后在显著位置标示,接受公众监督。
    • 一旦完成备案并获得备案号,企业有责任在其官方网站或其他公开渠道的显著位置,明确标示该备案号。这不仅是法律要求,也是企业展示自身合规性和透明度的重要方式。公众可以通过备案号查阅和监督企业的大模型服务,确保其符合相关法律法规和安全标准。企业应建立专门的备案号公示机制,及时更新备案信息,接受公众的监督和反馈。

六、备案动态与案例

(一)最新备案动态

米哈游旗下子公司 “上海米哈游秘法科技有限公司” 的服务通过备案,模型名称为 “Glossa”。米哈游创始人蔡浩宇曾放话 “AIGC (人工智能生成内容) 将彻底改变游戏开发行业”。米哈游在游戏开发领域积极探索 AI 技术的应用,其大模型的备案成功为游戏行业带来了新的发展机遇。

喜马拉雅音频大模型通过国家备案,成为全国首个通过网信办生成式人工智能服务的音频生成类大模型。目前上海市累计已完成 41 款生成式人工智能服务备案,喜马拉雅音频大模型的成功备案为音频领域的发展注入了新的活力。

上海 AI 大模型落地提速,目前全国已经有 188 款大模型完成备案,上海市共 34 款,徐汇区占 21 款。上海还有两批次 17 款大模型正在备案流程中,模速空间生态集聚效应显现。

(二)成功案例分析

以河南发出首张大模型备案牌照为例,APUS 旗下郑州阿帕斯科技的 “阿帕斯大模型” 成功在豫备案,取得河南省首张也是目前唯一一张大模型备案牌照。

该模型具有专业能力强、安全可信、支持全栈国产化等技术特点,已形成多种参数量版本,可部署于云、边、端不同场景。在模型量化压缩、多模态技术以及采用 MoE 架构等方面搭建了核心技术壁垒,深度聚焦生态应用,在电商、营销、医疗、网信、教育、制造、创作等诸多行业精炼垂直大模型,实现 AI 赋能。

在备案过程中,APUS 积极参与河南数字化建设,通过在郑州设立的企业级智算中心、全球数字基因库等项目为河南培育人工智能产业链。在基础数据和算力方面,APUS 在郑州建设了 “全球数字基因库”,用于阿帕斯大模型的训练;去年又投资建设了郑州智算中心,提供充沛算力,加速实现大模型普惠。

APUS 在河南组建了近百人的研发团队,已获得发明专利超过 100 项,有效推动了河南人工智能产业的能级提升。在智慧医疗领域,与河南省儿童医院合作打造「岐黄大模型」,搭建智能诊疗平台;在智慧政务领域,与网信等相关机构合作,依托「智信大模型」创建 “智慧网信・辟谣助手”;在智慧创作领域,通过「云梦大模型」形成的 AI 自动小说编写 — 智能剧本 — 智能视频的产业形态已得到市场验证。

未来,APUS 将持续加大在 AI 大模型领域的研发投入,不断优化算法,提高模型的精度、效率和泛化能力,深挖 AI 行业与用户需求,积极拓展 B、C、G 端人工智能应用场景,释放阿帕斯大模型能力,助力河南打造一流 AI 产业链和产业生态,驱动社会的智能化转型与可持续发展。

七、备案的区别与选择

(一)大模型备案与算法备案区别

  1. 备案对象不同,算法备案对象为所有算法,大模型备案对象为大型人工智能模型;
    • 算法备案涵盖了各种类型的算法,无论是应用于自动驾驶、金融风控还是医疗诊断等场景的算法都在其范围内。而大模型备案则聚焦于生成式人工智能产品中的大型语言模型或深度合成模型。例如,截至本周,全国通过算法备案的企业数量众多,涉及多个领域的算法服务,而通过大模型备案的企业目前为 117 家,主要是那些能够生成文本、图片、音频、视频等内容且具有舆论属性或社会动员能力的大型模型。
  2. 备案重点差异,算法备案重点在于透明度和可审计性,大模型备案更注重可追溯性和可靠性;
    • 算法备案强调算法原理、逻辑和关键参数的公开,以及对算法性能的定期评估和监控,以确保算法的安全性、透明度、公正性和可解释性,保护用户权益,防止算法滥用和歧视。例如,在算法备案过程中,企业需提交详细的算法说明文档、性能测试报告及安全评估报告等材料,监管部门会严格审核这些材料,必要时进行现场检查或要求算法提供者进行演示。而大模型备案则更关注模型训练数据的合法性、授权情况及数据质量,同时要求模型提供者建立完善的更新和维护机制,保障模型的持续有效性和安全性。比如,大模型备案要求企业在模型上线前进行安全评估,提交详细的安全自评估报告,以及模型服务协议、语料标注规则等材料,并可能需要通过专业的第三方评估。
  3. 备案流程复杂度不同,算法备案流程相对标准化,大模型备案流程更复杂。
    • 算法备案通常需要企业登录互联网信息服务算法备案系统进行主体信息和算法信息的填报,并通过系统提交相关材料,审核通过后获得备案号。其流程相对标准化,适用于所有需要备案的算法服务。而大模型备案流程可能因地区和模型类型而异,一般包括准备材料、提交备案申请、审核、获得备案号等步骤。例如,企业可能需要向属地网信办提交备案申请,经过企业内部评估、属地网信办审核、中央网信办复审等多个环节,流程更加复杂。

(二)如何选择备案类型

根据企业实际情况,如模型自研、规模较大、以生成式人工智能为经营主业等情况优先进行大模型备案,不符合条件的可选择算法备案或登记备案。

如果企业专注于生成式人工智能领域,拥有自主研发的大型模型,且该模型在市场上具有较高的影响力和社会动员能力,那么优先进行大模型备案是更为合适的选择。例如,一些科技巨头企业投入大量资源进行大模型的研发和训练,其模型能够生成高质量的文本、图片、音频、视频等内容,并且在行业内处于领先地位,这类企业应积极进行大模型备案,以确保其模型的合规性和安全性。

对于那些规模较小、算法应用场景较为单一或并非以生成式人工智能为主要业务的企业,可以考虑选择算法备案或登记备案。比如,一些小型创业公司可能使用一些通用的算法进行个性化推送、排序精选等服务,这些算法相对简单,对社会的影响相对较小,进行算法备案或登记备案可以满足其合规需求,同时也能降低备案成本和复杂度。

总之,企业在选择备案类型时,应充分考虑自身的实际情况和业务特点,选择最适合自己的备案方式,以确保企业的合法合规运营。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值