随着大语言模型在土木工程领域应用的不断拓展,其专业知识的准确性、工程推理能力及实际应用价值亟需科学、客观的评测。
近日,同济大学联合上海人工智能实验室司南团队共建的土木工程榜单在司南官网上线,该榜单基于 Civil-Bench 评测集,围绕土木工程教育与工程实践的核心能力,设置了六大评测维度,全面评估大模型在土木工程领域的知识理解、推理能力及应用能力。
点击查看榜单详情:
https://specialist.opencompass.org.cn/CivilBench
六大评测维度
土木工程
考察模型对岩土工程、水利水电工程、道路工程等专业基础理论和设计方法,以及公共基础知识的掌握情况。
测绘与地理信息
测试大模型在测绘案例分析、测绘管理与法律法规、测绘综合应用等方面的能力,评估其在测绘与地理信息领域的应用潜力。
环境工程
评估模型在环境影响评价领域中对技术导则与标准、技术方法、案例分析和相关法律法规等方面的知识覆盖水平与实践指导能力。
工程管理与建造
评估大模型在工程建造、工程造价预算、工程咨询和工程监理等方面的知识掌握和实践应用能力。
建筑与结构设计
测试大模型对建筑结构设计、结构计算及城乡规划的理解,评估其在建筑设计与结构分析中的应用能力。
安全工程
衡量模型在核安全工程、安全工程及消防工程等安全应急管理领域的推理能力与决策水平。
Civil-Bench 评测集的亮点
紧贴行业标准
题目贴合执业资格考试,真实反映模型在工程实践中的应用水平。
多维度知识体系
全面覆盖六大核心领域,实现对模型各方向知识掌握与推理能力的量化评估。
任务驱动应用场景
结合施工组织、结构设计、环境影响评估及测绘应用等实际任务,考察模型在真实工程场景中的适用性。
鲁棒性评测方式
采用动态干扰策略、选项重排列与随机化处理,确保评测结果客观反映模型工程推理能力。
司南垂类共建榜单
选取垂直领域内司南合作伙伴的优秀评测集,对主流大模型进行评测,根据评测结果发布榜单。目前已发布的榜单包含土木工程榜单、网络安全榜单、金融榜单、价值对齐榜单、法律榜单、医疗榜单。
欢迎更多的合作伙伴加入我们,共建垂类榜单,促进评测技术的发展和持续创新。
联系邮箱 opencompass@pjlab.org.cn