GPT-4o将改变论文学术文风,科学家揭示5年内百万篇论文“is”“are”词频减少10%!

 

在最近的一项研究中,意大利国际高等研究院(SISSA)的博士生耿明萌量化了 ChatGPT 对学术论文写作的影响。

与以往主要分析 ChatGPT 生成的段落或文章不同,这次研究更关注整体情况。
 

论文地址:https://arxiv.org/pdf/2404.08627

耿明萌希望在大模型火热的背景下,从类似足球裁判员和数据分析师的角度研究 ChatGPT 的影响。



事实上,一年前他并不是 ChatGPT 的支持者,也未打算追随大模型研究的潮流。

2023年夏天,他提交了一篇论文初稿,导师给了一些简略的建议和批注,多涉及写作问题。这促使耿明萌尝试使用 ChatGPT 修改和润色论文,但很快发现其词频与人类写作不同。



没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:
升级ChatGPT-4o Turbo步骤icon-default.png?t=N7T8https://www.zhihu.com/pin/1768399982598909952

如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard


因此,他决定从词频角度分析 ChatGPT 对论文的影响。导师虽对该方法的简单性感到疑惑,但因缺乏相关经验暂时搁置了这个想法。


直到2023年秋天,导师忙于出差宣传新书,耿明萌决定自己尝试。



在解决数据问题后,他在万圣节假期前开始了研究,并在几周内得出了初步结果:ChatGPT 出现后,学术论文中一些词语的使用频率确实发生了变化。



耿明萌选取了 arXiv 上最新的 100 万篇论文摘要进行分析,发现2018年至2023年间论文数量暴增,其中90%来自数学、物理和计算机学科。



研究显示,如“significant”的词频几乎翻倍,而“is”和“are”的词频减少了约10%。



接着,他通过 ChatGPT API 修改2022年 arXiv 上的前两万篇论文摘要,分析 ChatGPT 的词语偏好。

结果表明,2023年 ChatGPT 修改前后的词频变化与2022年高度相关,但2022年与2021年相比变化较小。



耿明萌提出了一个含噪声项的模型,证明在某些情况下,词语的选取不在多而在于其频率和变化率。

同时,对于不同类别和混合比例的摘要,词语选取也应有所不同。理论分析在模拟中得到验证。


基于此,他开始根据真实的 arXiv 摘要数据估算 ChatGPT 的影响。ChatGPT API 的模拟输出因 prompt 不同而产生相对值。



以“Revise the following sentences”为基准,ChatGPT 的修改比例约为35%。若使用更精准的 prompt,贡献可能超过100%。

耿明萌更愿意用“影响”而非“比例”来描述结果,因为不同的 prompt 会产生不同的输出。

一些作者可能会在使用 ChatGPT 后刻意抹去痕迹,或受其影响但最终未使用 ChatGPT 润色摘要。此外,其他大模型可能有相似但不同的词频变化。

总的来说,耿明萌依然认为,使用 ChatGPT 或其它工具,来润色论文和翻译论文本身并没有错,但要知道修改前后语义上的差别。

对于母语非英语的研究人员来说,这些新工具的合理使用确实也能促进公平,但直接利用这些工具生成论文段落是不可取的。

而研究 ChatGPT 对于论文风格的影响,则能助力科研人员更好地使用类似工具。


如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard

推荐阅读:

GPT-4o不仅能写代码,还能自查Bug,程序员替代进程再进一步!

GPT-4替代大学生参加考试,94%成功作弊未被发现!

CTO透露GPT-5内幕,OpenAI 以36亿美元收购数据库初创公司

  • 26
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值