GPT-4o将改变论文学术文风，科学家揭示5年内百万篇论文“is”“are”词频减少10%！

最新推荐文章于 2024-07-25 21:20:29 发布

TechQuester

最新推荐文章于 2024-07-25 21:20:29 发布

阅读量911

点赞数 26

文章标签： chatgpt 人工智能 python 算法数据结构 github

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ElevenSakura/article/details/140216682

版权

在最近的一项研究中，意大利国际高等研究院（SISSA）的博士生耿明萌量化了 ChatGPT 对学术论文写作的影响。

与以往主要分析 ChatGPT 生成的段落或文章不同，这次研究更关注整体情况。

论文地址：https://arxiv.org/pdf/2404.08627

耿明萌希望在大模型火热的背景下，从类似足球裁判员和数据分析师的角度研究 ChatGPT 的影响。

事实上，一年前他并不是 ChatGPT 的支持者，也未打算追随大模型研究的潮流。

2023年夏天，他提交了一篇论文初稿，导师给了一些简略的建议和批注，多涉及写作问题。这促使耿明萌尝试使用 ChatGPT 修改和润色论文，但很快发现其词频与人类写作不同。

没体验过OpenAI最新版GPT-4o？快戳最详细升级教程，几分钟搞定：
升级ChatGPT-4o Turbo步骤https://www.zhihu.com/pin/1768399982598909952

如何使用WildCard正确方式打开GPT-4o，目前 WildCard 支持的服务非常齐全，可以说是应有尽有！

官网有更详细介绍：WildCard

因此，他决定从词频角度分析 ChatGPT 对论文的影响。导师虽对该方法的简单性感到疑惑，但因缺乏相关经验暂时搁置了这个想法。

直到2023年秋天，导师忙于出差宣传新书，耿明萌决定自己尝试。

在解决数据问题后，他在万圣节假期前开始了研究，并在几周内得出了初步结果：ChatGPT 出现后，学术论文中一些词语的使用频率确实发生了变化。

耿明萌选取了 arXiv 上最新的 100 万篇论文摘要进行分析，发现2018年至2023年间论文数量暴增，其中90%来自数学、物理和计算机学科。

研究显示，如“significant”的词频几乎翻倍，而“is”和“are”的词频减少了约10%。

接着，他通过 ChatGPT API 修改2022年 arXiv 上的前两万篇论文摘要，分析 ChatGPT 的词语偏好。

结果表明，2023年 ChatGPT 修改前后的词频变化与2022年高度相关，但2022年与2021年相比变化较小。

耿明萌提出了一个含噪声项的模型，证明在某些情况下，词语的选取不在多而在于其频率和变化率。

同时，对于不同类别和混合比例的摘要，词语选取也应有所不同。理论分析在模拟中得到验证。

基于此，他开始根据真实的 arXiv 摘要数据估算 ChatGPT 的影响。ChatGPT API 的模拟输出因 prompt 不同而产生相对值。

以“Revise the following sentences”为基准，ChatGPT 的修改比例约为35%。若使用更精准的 prompt，贡献可能超过100%。

耿明萌更愿意用“影响”而非“比例”来描述结果，因为不同的 prompt 会产生不同的输出。

一些作者可能会在使用 ChatGPT 后刻意抹去痕迹，或受其影响但最终未使用 ChatGPT 润色摘要。此外，其他大模型可能有相似但不同的词频变化。

总的来说，耿明萌依然认为，使用 ChatGPT 或其它工具，来润色论文和翻译论文本身并没有错，但要知道修改前后语义上的差别。

对于母语非英语的研究人员来说，这些新工具的合理使用确实也能促进公平，但直接利用这些工具生成论文段落是不可取的。

而研究 ChatGPT 对于论文风格的影响，则能助力科研人员更好地使用类似工具。

如何使用WildCard正确方式打开GPT-4o，目前 WildCard 支持的服务非常齐全，可以说是应有尽有！

官网有更详细介绍：WildCard

推荐阅读：

GPT-4o不仅能写代码，还能自查Bug，程序员替代进程再进一步！

GPT-4替代大学生参加考试，94%成功作弊未被发现！

CTO透露GPT-5内幕，OpenAI 以36亿美元收购数据库初创公司

关注

26
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
GPT-4o将改变论文学术文风，科学家揭示5年内百万篇论文“is”“are”词频减少10%！

2023年夏天，他提交了一篇论文初稿，导师给了一些简略的建议和批注，多涉及写作问题。在解决数据问题后，他在万圣节假期前开始了研究，并在几周内得出了初步结果：ChatGPT 出现后，学术论文中一些词语的使用频率确实发生了变化。接着，他通过 ChatGPT API 修改2022年 arXiv 上的前两万篇论文摘要，分析 ChatGPT 的词语偏好。研究显示，如“significant”的词频几乎翻倍，而“is”和“are”的词频减少了约10%。同时，对于不同类别和混合比例的摘要，词语选取也应有所不同。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。