借助人工智能工具,文献综述等任务可以变得更加简单,但必须谨慎使用。图片来源:Olena Hromova/Alamy
人工智能 (AI) 工具正在改变我们的工作方式。许多产品试图通过帮助研究人员整理大量文献来提高科学研究的效率。
这些科学搜索引擎基于大型语言模型 (LLM),旨在筛选现有研究论文并总结关键发现。人工智能公司不断更新其模型的功能,并定期发布新工具。
《自然》杂志采访了这些工具的开发者和使用这些工具的研究人员,以获取有关如何应用这些工具的提示以及需要注意的陷阱。
有哪些可用的工具?
一些最受欢迎的基于 LLM 的工具包括 Elicit、Consensus 和 You,它们提供了多种加快文献审查的方法。
当用户将研究问题输入 Elicit 时,它会返回相关论文列表及其主要发现摘要。用户可以针对特定论文提出进一步的问题,或按期刊或研究类型进行筛选。
人工智能科学搜索引擎的数量正在激增——它们有用吗?
Consensus 帮助研究人员了解某一主题的各种科学信息。用户可以输入诸如“氯胺酮能治疗抑郁症吗?”之类的问题,该工具会提供一个“共识计量表”,显示科学共识所在。研究人员可以阅读同意、不同意或不确定假设的论文摘要。马萨诸塞州波士顿 Consensus 的首席执行官 Eric Olson 表示,这款人工智能工具并不能取代对论文的深入研究,但它对于对研究进行高层次的扫描很有用。
加利福尼亚州帕洛阿尔托的软件开发公司 You 表示,它是第一个将人工智能搜索与最新研究引文数据相结合的搜索引擎。该工具为用户提供了探索研究问题的不同方式,例如其“天才模式”以图表形式提供答案。上个月,You 推出了一款“多人游戏工具”,允许同事协作并共享可自动执行特定任务(例如事实核查)的自定义人工智能聊天。
共识可以让人们了解科学界对某一特定主题或问题的共识程度。图片来源:共识
总部位于伦敦的研究分析公司科睿唯安 (Clarivate) 于 9 月发布了人工智能研究助手,让用户可以快速搜索 Web of Science 数据库。科睿唯安表示,科学家可以输入研究问题,查看相关摘要、相关主题和引文图,这些图会显示每项研究引用的论文,并帮助研究人员识别关键文献。
尽管 Web of Science 上的论文都是英文的,但科睿唯安的 AI 工具也能用不同的语言总结论文摘要。科睿唯安驻伦敦的产品副总裁 Francesca Buckland 表示:“大型语言模型中嵌入的语言翻译功能具有巨大的潜力,可以让世界各地的科学文献更加均衡。”
BioloGPT 是越来越多的特定主题 AI 工具之一,可以对生物学问题提供总结和深入的答案。
哪些工具适合哪些任务?
当被问及最佳的人工智能搜索引擎工具时,加拿大卡尔加里的流行病学家拉齐亚·阿利亚尼 (Razia Aliani) 说:“我总是说,这取决于你真正想做什么。”
当她需要了解某个话题的共识或分歧意见时,Aliani 会倾向于使用“共识”一词。
Aliani 也在系统评价公司 Covidence 工作,她在审查大型数据库时会使用其他 AI 工具。例如,她使用 Elicit 来微调她的研究兴趣。在输入初始研究问题后,Aliani 使用 Elicit 排除不相关的论文并深入研究更相关的论文。
Aliani 表示,人工智能搜索工具不仅可以节省时间,还可以帮助“提高工作质量、激发创造力,甚至找到减轻任务压力的方法”。
Clarivate 的 AI 工具生成引文图,显示每项研究引用的论文。来源:Web of Science、Clarivate
安娜·米尔斯 (Anna Mills) 在加利福尼亚州旧金山的马林学院 (College of Marin) 教授入门写作课程,其中包括研究过程课程。她说,向学生介绍这些工具很有吸引力,但她担心这些工具可能会妨碍学生对学术研究的理解。相反,她热衷于教学生人工智能搜索工具如何出错,这样他们就可以培养“批判性地评估这些人工智能系统给他们的东西”的技能。
BiologGPT 的创始人、科罗拉多州戈尔登市的康纳·兰姆登 (Conner Lambden) 表示:“成为一名优秀的科学家的一部分就是对一切事物保持怀疑,包括你自己的方法。”
那么不准确的答案和错误的信息怎么办?
人们对主要人工智能聊天机器人(如 ChatGPT)输出的准确性表示担忧,因为它可以“产生幻觉”产生虚假信息并编造参考资料。
ChatGPT 通过三种方式帮助我进行学术写作
这导致人们对科学搜索引擎产生了一些怀疑——用户表示,研究人员应该谨慎行事。人工智能研究工具面临的常见错误包括编造统计数据、歪曲引用的论文以及基于这些工具的训练系统的偏见。
体育科学家 Alec Thomas 在使用 AI 工具时遇到的问题导致他放弃了使用这些工具。瑞士洛桑大学的 Thomas 以前很欣赏 AI 搜索工具,但在发现“一些非常严重的基本错误”后停止使用它们。例如,在研究饮食失调的人参加体育运动会受到怎样的影响时,AI 工具总结了一篇它认为相关的论文,但实际上“它与原始查询无关”,他说。“我们不会相信一个已知会产生幻觉的人,那么我们为什么要相信 AI 呢?”他说。
开发人员如何解决不准确的答案?
《自然》采访的开发人员表示,他们已经实施了安全措施来提高准确性。加利福尼亚州奥克兰 Elicit 公司的工程主管 James Brady 表示,公司非常重视准确性,并使用了多种安全系统来检查答案中的错误。
Buckland 表示,Web of Science AI 工具具有“强大的保护措施”,可以防止包含欺诈和有问题的内容。她说,在 beta 测试期间,该团队与大约 12,000 名研究人员合作,收集反馈意见。
人工智能聊天机器人即将登陆搜索引擎——你能相信其结果吗?
尽管这样的反馈可以改善用户体验,但 Olson 表示,这也可能会影响幻觉。人工智能搜索工具“接受过人类反馈的训练,它们希望为人类提供良好的答案”,Olson 说。因此“它们会填补不存在的空白”。
印第安纳州印第安纳波利斯的生成式人工智能研究员安德鲁·霍布利泽尔 (Andrew Hoblitzell) 通过一个名为 AI4All 的项目在大学授课,他认为人工智能搜索工具可以支持研究过程,前提是科学家验证生成的信息。“目前,这些工具应该以混合方式使用,而不是作为权威来源。”
未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或点击本文左下角“阅读原文”进入。