土木工程领域大模型哪家强?六大维度全面评测!

随着大语言模型在土木工程领域应用的不断拓展,其专业知识的准确性、工程推理能力及实际应用价值亟需科学、客观的评测。

近日,同济大学联合上海人工智能实验室司南团队共建的土木工程榜单在司南官网上线,该榜单基于 Civil-Bench 评测集,围绕土木工程教育与工程实践的核心能力,设置了六大评测维度,全面评估大模型在土木工程领域的知识理解、推理能力及应用能力。

点击查看榜单详情:

https://specialist.opencompass.org.cn/CivilBench

图片

图片

六大评测维度

土木工程

考察模型对岩土工程、水利水电工程、道路工程等专业基础理论和设计方法,以及公共基础知识的掌握情况。

测绘与地理信息

测试大模型在测绘案例分析、测绘管理与法律法规、测绘综合应用等方面的能力,评估其在测绘与地理信息领域的应用潜力。

环境工程

评估模型在环境影响评价领域中对技术导则与标准、技术方法、案例分析和相关法律法规等方面的知识覆盖水平与实践指导能力。

工程管理与建造

评估大模型在工程建造、工程造价预算、工程咨询和工程监理等方面的知识掌握和实践应用能力。

建筑与结构设计

测试大模型对建筑结构设计、结构计算及城乡规划的理解,评估其在建筑设计与结构分析中的应用能力。

安全工程

衡量模型在核安全工程、安全工程及消防工程等安全应急管理领域的推理能力与决策水平。

图片

Civil-Bench 评测集的亮点

紧贴行业标准

题目贴合执业资格考试,真实反映模型在工程实践中的应用水平。

多维度知识体系

全面覆盖六大核心领域,实现对模型各方向知识掌握与推理能力的量化评估。

任务驱动应用场景

结合施工组织、结构设计、环境影响评估及测绘应用等实际任务,考察模型在真实工程场景中的适用性。

鲁棒性评测方式

采用动态干扰策略、选项重排列与随机化处理,确保评测结果客观反映模型工程推理能力。

司南垂类共建榜单

选取垂直领域内司南合作伙伴的优秀评测集,对主流大模型进行评测,根据评测结果发布榜单。目前已发布的榜单包含土木工程榜单、网络安全榜单、金融榜单、价值对齐榜单、法律榜单、医疗榜单。

欢迎更多的合作伙伴加入我们,共建垂类榜单,促进评测技术的发展和持续创新。

联系邮箱 opencompass@pjlab.org.cn

图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值