必看!大模型备案必备材料+参考资料分享
2023年3月15日,随着OpenAI多模态预训练大模型GPT-4的发布,国内包括百度、华为、腾讯等科技巨头,百川智能等初创企业,以及智谱AI研究院等研究机构纷纷扬帆起航,投身到人工智能(AI)大模型的开发中,试图搭上这趟时代列车,轰轰烈烈的“百模大战”也由此开启。
据不完全统计,截至今年4月底,国内共推出了约305个大模型,在过去一年推动着语言理解、图像识别等多个领域的技术进步。截至2024年5月16日,国内共有约140个大模型完成生成式人工智能服务备案,占305个大模型的约45.9%。
在大模型的监管政策层面,我们走在了世界的前列。主要参与监管的有三个部委:网信办,公安部,工信部。2018年11月30日起施行的《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》搭建了互联网内容生成服务监管的总体框架。
在2022年3月1日起施行的《互联网信息服务算法推荐管理规定》中,就个人信息安全,以及算法训练需要用到的数据作了明确规定。
在三部委联合发布,2023年1月10日起施行的《互联网信息服务深度合成管理规定》中,明确了服务提供者需要承担内容安全的主体责任,并且必须在显著位置向公众说明哪些内容是由ai生成的。
在上述规定的基础上,2023年4月,网信办制订了《生成式人工智能服务管理办法》的第六条,就明确指出:
第六条 利用生成式人工智能产品向公众提供服务前,应当按照《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》向国家网信部门申报安全评估,并按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续。那么具体如何备案呢?
那么具体如何备案呢?
首先你要准备必备的材料清单
《算法备案承诺书》
《落实算法安全主体责任基本情况》
《算法安全自评估报告》
《拟公示内容》
《落实算法安全主体责任基本情况》,需要50页左右,《算法安全自评估报告》 100 页左右,包含附录各种证明材料。材料申报难度较高,一方面涉及专业问题非常全面,可能算法数据人员在实际工作中都未思考过,更不好回答;另一方面对于算法的详细描述质量,有较高的要求,非专业人员无法胜任报告的撰写。
1、《 算法安全自评估报告》
重点说明,需要明确以下4个点
(1)算法原理和逻辑
(2)数据来源合规性
(3)算法透明度和可解释性
(4)安全漏洞检测与应对
《算法安全自评估报告》是整个申报过程中最难和最重要的材料,总共160+种备案关键指标需要回答,且所有问题都必须要回答清楚,如果不理解问题表述,需要寻求专业求助,不能删除问题不回答,更不能随意回答,回答的详细程度和准确性决定算法备案是否通过。
撰写评估报告的难点主要在于三点:
一是要对算法进行全面的评估,包括安全性、可靠性、有效性等,同时需要与法务的参与,必须要符合法律法规;
二是数据的合规性,要有数据来源的开源授权协议或相关合作证明,确保数据在使用中符合相关行业法规和标准,避免违规操作;
三是风险预估与应对策略,对各种可能出现的风险进行评估,并进行对应的策略。
2、《落实算法安全主体责任基本情况》
这个文档的填写难度较高,需要明确3个重点
(1)如何做好信息安全监测
(2)如何做好内容安全监测
(3)如何做好用户个人信息安全监测
做好以上几点需要产品、研发算法、法务团队的密切配合,材料需要详细提供企业建立的算法安全相关组织和制度,但大多数公司还没有建立算法制度,网上的资料还少,其中制度又分为了自评估制度、监测制度、应急处置制度和违法违规处置等。
3、《xxx大模型算法”拟公示内容》【公示内容《拟公示内容》】
这部分信息主要在网页端的信息填报环节,这部分包括算法名称、算法基本原理、算法运行机制、算法应用场景、算法目的意图、算法公示情况(选填),一般一页word即可
4、申请公司营业执照副本彩色扫描件;
5、法定代表人身份证彩色扫描件+手机号+电子邮箱;
6、算法安全负责人身份证彩色扫描件+手机号+电子邮箱+工作证明(如工作证扫描件);
7、联系人身份证彩色扫描件+手机号+电子邮箱;法人、安全责任人、联系人 分别三人担任
8、算法机构设置(主要工作职责、任职要求、配备的规模、保障措施);
参考资料
1、《互联网信息服务深度合成管理规定》
2、《互联网信息服务算法推荐管理规定》
3、《生成式人工智能服务安全基本要求》
补充说明
《落实算法安全主体责任基本情况》《算法安全自评估报告》是非常重要并且比较繁琐的,需要画出流程图,描述各个产品研发过程、输入输出的算法原理、范围、来源、限制,算法的意图、算法的逻辑、使用的技术、数据结构、对数据安全保障和风险防范措施。程序的构造和原理主要包括计算机程序设计语言、算法设计、编码、调试、测试等技术。关于我们:算法备案超过100个项目经验,国内算法备案第一梯队,大模型备案也有多个成功案例,欢迎沟通交流。