研究人员利用人工智能(AI)聊天机器人ChatGPT的算法,创建了一个虚假的临床试验数据集,以支持一个未经验证的科学主张。
在11月9日发表于《JAMA Ophthalmology》的一篇论文中,作者将GPT-4与Advanced Data Analysis(ADA)搭配使用。ADA是一个集成了编程语言Python的模型,能够进行统计分析及数据可视化。这个由AI生成的数据对比了两种手术方法的结果,并错误地表明一种治疗方法优于另一种。
“我们的目标是强调,在短短几分钟内,你可以创建一个没有真实原始数据支持的数据集,数据支持或者反驳已有的科学证据,” 意大利卡利亚里大学眼科医生、研究合作者朱塞佩·詹纳卡雷(Giuseppe Giannaccare)说道。
AI能够伪造令人信服数据的能力增加了科研人员和期刊编辑对于研究诚信的担忧。“生成式AI能够生成无法通过抄袭软件检测的文本,这无疑令人担忧,但能够创造虚假且逼真的数据集,这是更加令人担忧的,” 加利福尼亚州旧金山的微生物学家伊丽莎白·比克(Elisabeth Bik)表示。“这将使得任何研究人员或研究小组都能够轻松地在不存在的患者身上创造虚假的测量数据,对问卷提供虚假答案,或生成大量关于动物实验的数据。”
作者将结果描述为一个“看似真实的数据库”。但在专业人士的检查下,这些数据并未能通过真实性检查,其中包含明显的伪造迹象。
手术比较
研究作者使用GPT-4 ADA创建了一个关于角膜圆锥症(keratoconus)患者的数据集,该病导致角膜变薄,可能引起焦点不清和视力下降。对于15-20%的患者,治疗涉及进行角膜移植,有两种手术方法可以选择。第一种方法是穿透性角膜移植(PK),即手术切除所有受损的角膜层,并用来自供体的健康组织替换。第二种方法是深前层角膜移植(DALK),它仅替换角膜的前层,保留最内层。
作者利用AI语言模型伪造数据,以支持深前层角膜移植(DALK)的结果优于穿透性角膜移植(PK)的结论。为此,他们要求模型呈现两方面统计差异:(1) 在评估角膜形状和检测不规则性的成像测试中存在统计差异,(2) 在手术前后试验参与者的视力表现方面存在差异。
AI生成的数据包括160名男性和140名女性,并显示接受DALK的人在视力和成像测试中得分都比接受PK的人更好,这与真实临床试验的结果相矛盾。在2010年的一份报告中,涉及77名参与者的试验显示,DALK的结果在手术后2年内与PK的结果相似。
英国曼彻斯特大学的生物统计学家杰克·威尔金森表示:“创建在表面上看起来合理的数据集似乎相当容易。从业外人士看来,这当然像一个真实的数据集。”
威尔金森对此前版本的大型语言模型生成的几个数据集进行了检查,他表示,这些数据集在经过仔细审查时缺乏令人信服的元素,因为它们难以捕捉变量之间的真实关系。
在《Nature》新闻团队的请求下,威尔金森和他的同事Zewen Lu使用了一个旨在检查真实性的筛选协议评估了这个伪造的数据集。
结果揭示,许多“参与者”在指定性别和通常预期的性别之间存在不匹配。此外,在术前和术后的视力能力和眼部成像测试的测量值之间找不到相关性。威尔金森和Lu还检查了数据集中是否存在非随机的模式,眼部成像数值通过了这个测试,但一些年龄值以7或8结尾的方式聚集极不寻常。
研究作者承认他们的数据集存在缺陷。但詹纳卡雷表示:“如果你很快看一下数据集,很难辨认出数据源的真实性。”
EMBO Reports的主编贝恩德·普尔弗勒(Bernd Pulverer)同意这是一个令人担忧的问题。“实际上,同行评审往往止步于对数据的全面重新分析,并且不太可能发现使用AI制造的精心策划的诚信违规行为,”他说,期刊将需要更新质量检查以识别AI生成的数据。
威尔金森正在领导一个协作项目,设计统计和非统计工具来评估潜在有问题的研究。“就像AI可能是问题的一部分,可能也有一些基于AI的解决方案。我们可能能够自动化其中的一些检查,”他说。但他警告说,生成式AI的进展很快就可能提供规避这些协议的方法。普尔弗勒也同意:“一旦知道了筛查的内容,这些都是AI可以轻松对付的事情。”
点击蓝字 快来关注
Reference:
https://www.nature.com/articles/d41586-023-03635-w
Taloni, A., Scorcia, V. & Giannaccare, G. JAMA Ophthalmol. https://doi.org/10.1001/jamaophthalmol.2023.5162 (2023)
文中观点不表明脑极客任何立场,侵权即删