大模型备案语料来源安全要求

大模型备案的语料来源安全要求,对服务提供者的要求如下。

a)语料来源管理方面:

1)面向特定语料来源进行采集前,应对该来源语料进行安全评估,语料内容中含违法不良信息超过5%的,不应采集该来源语料;

2)面向特定语料来源进行采集后,应对所采集的该来源语料进行核验,含违法不良信息情况超过5%的,不应使用该来源语料进行训练。

b)不同来源语料搭配方面:应提高语料来源的多样性,对每一种语言的语料,如中文、英文等,以及每一种类型的语料,如文本、图片、音频、视频等,均应有多个语料来源;如需使用境外语料,应合理搭配境内外来源语料。

c)语料来源可追溯方面:

1)使用开源语料时,应具有该语料来源的开源许可协议或相关授权文件;注1:对于汇聚了网络地址、数据链接等能够指向或生成其他数据的情况,如果需要使用这些被指向或生成的内容作为语料,应将其视同于自采语料。

2)使用自采语料时,应具有采集记录,不应采集他人已明确不可采集的语料;注2:自采语料包括自行生产的语料以及从互联网采集的语料。 注3:明确不可采集的语料,例如已通过robots协议或其他限制采集的技术手段明确表明不可采集的网页数据,或个人已拒绝授权采集的个人信息等。

3)使用商业语料时: —— 应有具备法律效力的交易合同、合作协议等; —— 交易方或合作方不能提供语料来源、质量、安全等方面的承诺以及相关证明材料时,不应使用该语料; —— 应对交易方或合作方所提供语料、承诺、材料进行审核。

4)将使用者输入信息当作语料时,应具有使用者授权记录。

d)按照我国网络安全相关法律法规及政策文件要求阻断的信息,不应作为语料。

私信我们,获得大模型备案与算法备案在线指导,助您快速通关,产品早日上线!

  • 6
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值