安全大模型,你“评测”过了吗?

eddd49b969f88097f74f19bfbfdb161b.jpeg


今年7月,2024世界人工智能大会暨人工智能全球治理高级别会议上发布的《人工智能全球治理上海宣言》提出,以人工智能技术防范人工智能风险,提高人工智能治理的技术能力;同时还鼓励各国结合国情,制定相应的法律和规范,建立风险等级测试评估体系和科技伦理审查制度。

确保人工智能在发展过程中的安全性、可靠性、可控性和公平性,就必须建立健全相关的标准、评测体系,为人工智能技术、大模型等的行业应用实践保驾护航。

令人欣慰的是,我国在安全大模型、与人工智能相关的网络安全的评估评测方面进行了诸多有益的探索,相关的测试标准、方法陆续发布,众多国内安全厂商也积极参与其中。

下面,我们以时间为线索,回顾一下我国在安全大模型评测方面的主要进展。

赛迪顾问发布的《中国安全大模型技术与应用研究报告(2023)》深入剖析了国内安全厂商在安全大模型方面的技术与应用现状,并对未来发展趋势进行了预测。报告对安全大模型进行了定义:安全大模型是针对安全垂直领域的大型语言模型,通过大量的专业的安全知识进行设计和训练,使其具备处理海量数据和执行安全行业特定任务的能力,对于保护企业和个人的信息安全、提高网络安全防护效率具有重要意义。

2024年1月19日,国内首个网络安全大模型评测平台SecBenc正式发布。该平台由腾讯朱雀实验室和腾讯安全科恩实验室,联合腾讯混元大模型、清华大学江勇教授/夏树涛教授团队、香港理工大学罗夏朴教授研究团队、上海人工智能实验室OpenCompass团队共同建设,旨在通过建设安全大模型评测基准,从能力、语言、领域、安全证书考试四个维度,对大模型在网络安全领域的各方面能力进行评估,解决开源大模型在网络安全应用中安全能力的评估难题。

2024年4月30日,由公安部网络安全等级保护评估中心牵头编写的团体标准《大模型系统安全保护要求》和《大模型系统安全测评要求》正式发布。在此之前,业界标准大多侧重于训练数据和模型生成内容安全,没有以大模型系统安全作为对象的相关标准。《大模型系统安全保护要求》的发布填补了这一空白。《大模型系统安全保护要求》主要从通用安全和大模型系统全生命周期安全提出具体要求:通用安全从物理环境、网络架构等14个方面,提出大模型系统的基础安全要求;全生命周期安全覆盖设计开发安全要求、测试安全要求、部署与运行安全要求、退役安全要求等。

2024年7月,中国信息通信研究院依托人工智能产业联盟(AIIA)安全治理委员会,联合多方研制了《安全大模型能力要求及评估方法》系列规范,包含5部分。其中,《安全大模型能力要求与评估防范 第1部分:总体框架》和《安全大模型能力要求与评估防范 第2部分:基础网络安全》已正式发布。系列规范明确提出,安全大模型包含三层:基础设施层,包含支撑大模型运行的算力、模型和数据;通用安全能力,包括安全问答、安全语言翻译、安全数据处理、安全任务编排、安全工具调用、安全告警研判、安全报告生成、大模型内生安全等通用能力;安全原子能力,包括安全大模型可具备的基础网络安全能力、数据安全能力、内容安全能力和业务安全能力。

2024年7月,中国移动研究院与赛迪研究院联合发布多款主流开源大模型评测结果,为业界开源大模型研发和应用提供客观参考。双方共同制定了大模型评测标准,从准确性、可靠性、安全性和交互性等多维度构建“弈衡”大模型评测体系,并且构建专属评测数据集,设计了涵盖文本理解、科学问题、逻辑推理、程序编写、隐私保护和合法合规等场景的200余项评测指标。测试结果表明,尽管主流开源大模型整体能力仍落后于闭源大模型,但头部开源大模型提升趋势显著,在准确性和安全性方面超越多款主流闭源大模型。

2024年9月9日,在广州举行的国家网络安全宣传周网络安全技术高峰论坛主论坛上,正式发布了2024年人工智能技术赋能网络安全应用测试结果。本次测试活动由中央网信办网络安全协调局协同多家单位共同举办,旨在挖掘人工智能技术在网络安全领域的应用潜力,推动网络安全产业整体技术水平不断提升。测试使用了华为的AI服务器、计算架构作为基础软硬件环境,设置了网络安全告警日志降噪、原始流量网络安全威胁检测、钓鱼邮件识别、恶意软件检测、软件缺陷分析与漏洞检测、网络金融用户账号欺诈登录行为检测等6个场景。测试结果显示,目前AI技术在“网络安全告警日志降噪场景、钓鱼邮件识别场景、恶意软件检测场景和网络金融用户账号欺诈登录行为检测场景”中具有较好的赋能效果。

2024年9月12日,在CCS2024成都网络安全系列活动期间,颁布了首批“安全大模型基础网络安全能力评估证书”,绿盟科技等七家网络安全厂商获证。

经过一年多的发展,人们对待大模型也越来越理性。“与其卷模型,不如卷应用”,逐渐成为共识。如何更好地利用大模型赋能生产应用,同时又避免大模型相关的安全问题,成了企业最关注的问题之一。建立相关技术和评测标准,安全、审慎、合规地使用大模型,才能让人工智能在更好地实现赋能的同时,又少走弯路。



如果您对安全大模型的评估评测有真知灼见,如果您的公司正在开发安全大模型,欢迎与我们分享。可以留言或加微信联系。




往/期/回/顾

从科技赋能到价值引领,东莞证券可进化的信创云建设启示录“智算”雄起 | 智算操作系统要“顶天立地”

360安全大模型为什么是“非卖品”?

“大模型”有本安全生意经

邬贺铨院士:大模型赋能数字化转型和数字安全的新模式

c4d5a1859f46b6818e08141f23a1aa1c.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值