一、文章主要内容:
该研究系统性分析了11个主流大型语言模型(LLM)在中美关系七大敏感议题上的地缘政治偏见。通过双语(英语/中文)和双重框架(肯定/反向)的方法论,生成了19,712条测试提示。研究发现:
- 模型立场与地域高度相关:美国模型普遍亲美,中国模型显著亲中
- 语言和提示框架显著影响输出:部分模型在不同语言或框架下立场反转
- 提出中立率、拒绝率等评估指标,发现中国模型在敏感议题上拒绝率更高
- 揭示模型在多语言和框架下的一致性差异,为实际应用提供选择依据
二、创新点:
- 首次采用双语(中英)和双重框架(肯定/反向)的系统性评估方法
- 构建了包含7大敏感议题的标准化测试集(台湾、贸易、南海等)
- 开发了量化评估指标(-2到+2的立场分数)和一致性度量体系
- 发现语言框架对模型立场的影响大于语言本身,验证了prompt工程的实际效用
- 提出模型选择的实用指南,强调在敏感领域需考虑地域偏见和响应稳定性
摘要
本研究通过分析11个主流大型语言模型(LLM)对中美关系七大关键议题的响应,系统评估了地缘政治偏见。采用双