概述
近年来,大规模语言模型因其能够根据人类指令自动生成大量高质量文本而备受关注。特别是 2022 年底发布的 ChatGPT 3.5,因其聊天界面的易用性而迅速走红。目前,学术交流领域正在积极讨论如何使用它。而最初的期望也逐渐让人们对其能力和局限性有了更深入的理解和认识。
根据 2023 年底进行的一项调查,30% 的研究人员使用大规模语言模型准备稿件,许多出版商也开始提供使用指南;Wiley 等出版商允许使用这些工具,只要作者完全负责并明确披露其使用情况。然而,要全面了解大规模语言建模文本生成对学术文献质量的影响并不容易。一些研究已经确定论文是由大规模语言模型生成的,因为其中包含的短语明显不同于人类使用的短语,但这种情况只占总数的一小部分。
人工智能检测工具的进步在一定程度上使得使用大规模语言模型来识别生成的文本成为可能,但在某些领域,如物理和数学,还没有得到广泛应用。不过,最近的研究表明,大规模语言模型可用于会议论文的同行评审,尤其是在人工智能领域。这些例子表明,大规模语言模型的使用正开始在学术交流中发挥重要作用,未来的发展将令人关注。
大规模语言模型首选术语的识别
Liang 等人的研究提出了一种新方法,通过识别与模型生成的文本相关的术语来查找利用大规模语言模型的论文。这种方法不需要分析整个文本,只需检测这些特征术语即可进行评估。
为此,Liang 等人选择了 12 个特征形容词(形容词)和副词(副词),并对这些词进行了检测。此外,还有 12 个中性词(Controls)可供比较,这些词在许多文章中都很常用。