Deepseek 和通义千问LLMs在2025年初因其低成本和开放访问的LLM解决方案而变得流行。一家位于中国浙江省杭州市的公司于2024年12月宣布了其新的LLM,DeepSeek v3。随后,阿里巴巴于2025年1月29日发布了其AI模型通义千问2.5 Max。这些免费且开源的工具对世界产生了重大影响。Deepseek和通义千问也有潜力被世界各地的许多研究人员和个人用于学术写作和内容创作。因此,确定这些新LLM生成高质量学术内容的能力至关重要。本研究旨在通过将通义千问2.5 Max和DeepSeek v3与流行的系统如ChatGPT、Gemini、Llama、Mistral和Gemma进行比较,评估其学术写作性能。在这项研究中,使用了关于数字孪生和医疗保健主题的40篇文章。本研究的方法包括使用生成式AI工具基于提出的问题生成文本并对这40篇文章的摘要进行改写。然后,通过抄袭检测工具、AI检测工具、字数比较、语义相似性工具和可读性评估对生成的文本进行了评估。观察到抄袭测试结果率对于改写的摘要文本一般较高,而对于生成的问题答案较低,但两者均高于可接受水平。在使用AI检测工具进行的评估中,确定所有生成的文本都被高精度地检测为AI生成。在生成的字数比较中,评估得出所有聊天机器人生成了令人满意的文本量。语义相似性测试显示生成的文本与原始文本具有较高的语义重叠。可读性测试表明生成的文本不够易读。
现代人工智能的进步很大程度上得益于基础性的开源贡献。一个关键的例子是谷歌在2017年发布的Transformer架构,它为后续的创新如OpenAI的GPT系列奠定了技术基础。同样,BERT在GitHub上的公开可用性催化了其广泛应用,促进了Transformers库等工具的发展,使尖端模型的获取更加民主化。像Hugging Face [20]这样的环境使得该领域的进步得以共享。
人工智能(AI),特别是大型语言模型(LLMs),有潜力彻底改变许多行业。特别是在学术写作领域,这些模型提供的自动内容生成和信息访问为研究人员和内容创作者创造了巨大的机遇和挑战。各种LLMs被用于文本生成、总结、改写、写作、语言翻译和其他众多领域,这些工具的能力正在重塑知识生产和学习的过程。
AI生成的学术内容问题已在学术界和工业界引发了广泛的讨论。像ChatGPT、Gemini、Llama、Mistral以及最近的通义千问2.5 Max和DeepSeek v3等模型的出现,引发了它们将如何影响学术写作生产过程的问题 [71, 72, 85, 86]。新一代的人工智能模型训练在更大的数据集上,并能通过理解更复杂的语言结构生成更高品质的文本 [81-84]。尽管像ChatGPT这样的流行模型在学术内容生产中提供了快速高效的解决方案,但其质量和原创性受到了许多研究人员的批评 [71-80]。随着这些工具的可及性增加,当今世界大量学术内容被生产和发表在许多学术期刊中 [87-89]。许多期刊和出版商制定了关于在学术文献中使用AI生成内容或如何使用AI工具的政策 [90-96]。根据这些政策,检测此类内容是一个重要问题。在此背景下,评估新模型对于确定人工智能在学术写作中的作用以及这些工具在未来学术写作过程中如何使用至关重要。我们的研究将在中国科技公司阿里巴巴开发的通义千问2.5 Max和另一家中国公司DeepSeek提供的DeepSeek v3之间进行全面比较,分析LLM模型领域的能力。将这些模型与流行的AI系统如ChatGPT、Gemini、Llama、Mistral和Gemma进行比较,将提供对其在学术内容生成潜力的深入分析。
本研究的主要目的是通过与其他流行的AI系统比较,评估新一代大型语言模型在学术写作中的表现。将基于这些模型在学术写作过程中的表现、原创内容生产能力、语义相似性和文本易读性等方面进行分析。该研究质疑AI生成文本在学术界的可用性,并试图了解此类工具在学术内容生成中的作用。本研究基于我们之前题为“OpenAI ChatGPT生成的文献综述:医疗保健中的数字孪生”的改进和扩展版本方法。在之前的研究所中,使用ChatGPT(GPT-3)针对特定问题生成答案并改写了大约40篇学术文章的摘要。在本研究中,这一过程将使用更广泛的模型重复进行,并详细分析通义千问2.5 Max和DeepSeek v3等新一代聊天机器人的表现。此外,本研究旨在为人工智能在学术写作中的应用研究做出贡献,并成为该领域的参考来源。
本研究对文献的贡献在于通过详细展示新一代大型语言模型在学术写作中的表现,特别是在内容原创性和语义相似性方面,填补现有文献的空白。本研究将基于先前关于学术写作生产的研究所涉及的模型性能进行比较分析,并指导如何在未来更有效地利用这些模型进行学术内容生产。本研究探讨了以下关键研究问题:
- 通义千问2.5 Max和DeepSeek v3在学术写作任务中与ChatGPT、Gemini、Llama、Mistral和Gemma相比的表现如何?
- 在改写过程中,通义千问2.5 Max和DeepSeek v3生成的学术文本的原创性程度如何与其他大型语言模型相比?
- 聊天机器人避免被AI检测工具检测到的有效性如何?
- 本研究的发现与现有研究关于AI模型学术写作能力的研究结果一致还是存在差异?
2. DeepSeek模型
DeepSeek作为高效、大规模模型训练的关键参与者崭露头角。几篇论文[13-16]描述了实现这种效率的重要创新。我们将重点介绍DeepSeekMath、DeepSeek-V2、DeepSeek-V3和DeepSeek-R1等关键模型,揭示了一些突破性的进展。
DeepSeekMath模型提升了数据质量以支持更优的模型性能。DeepSeekMath展示了高质量数据在模型性能中的重要性。团队开发了一种基于FastText的分类器,以大规模筛选数学内容,从包含OpenWebMath作为正面示例和Common Crawl作为负面示例的强大种子数据集中开始。这种方法提取了1200亿个高质量的数学相关标记,超过了现有的语料库如MathPile和OpenWebMath。引入组相对策略优化(GRPO)进一步优化了训练效率,消除了对价值模型的需求,减少了内存开销,并加速了训练时间。通过基准测试结果验证了GRPO的成本效益和可扩展性,其中预训练于DeepSeekMath语料库的7B模型超越了更大规模的模型,包括WizardMath-70B [13]。
DeepSeek-V2模型引入了架构创新以提高效率。多头潜在注意力(MLA)解决了传统多头注意力(MHA)的低效问题,通过压缩键值(KV)缓存,减少内存使用并加快推理速度而不牺牲准确性。DeepSeekMoE通过将专家分割成专业化单元来优化专家分配,减少冗余计算并降低训练成本。设备受限路由通过限制令牌交互到有限数量的设备进一步最小化通信开销,增强了可扩展性和效率 [14]。
DeepSeek-V3在前代模型的架构基础上构建,并带来了基础设施突破。引入了HAI-LLM训练框架和DualPipe算法以实现管道并行性。DualPipe最小化了通信开销并最大化了计算-通信重叠,显著提高了训练效率。该模型还利用FP8混合精度训练以提升计算速度并减少内存消耗,而多令牌预测(MTP)通过并行预测两个令牌将推理效率翻倍。这些创新使DeepSeek-V3在GPU小时数、训练成本和能源消耗方面超越了Meta的Llama 3.1 405B [15]。
DeepSeek-R1模型通过消除强化学习(RL)的监督微调(SFT)初步步骤进一步降低了训练成本。通过重新引入GRPO,模型能够在不过度微调的情况下高效学习推理任务,强化了预训练提供模型核心能力而微调优化和暴露这些能力的理念 [16]。DeepSeek-R1代表了AI推理模型的重大进步,提供了成本有效且可扩展的传统训练方法替代方案。其基于规则的RL框架不仅减少了资源需求,还增强了模型与任务目标的一致性,为更高效和透明的AI开发铺平了道路。这突显了开源AI在普及高性能推理模型访问的同时应对强化学习关键挑战的潜力。
DeepSeek的成功还得益于其对细致数据标注实践的重视,包括首席执行官在内的组织领导直接参与标注任务。这种对数据质量的强调进一步制度化在DeepSeek的方法论中,正如v3研究论文[15]明确承认标注贡献者一样,在技术文献中很少见。这些做法强调了模型与透明和协作开发原则的一致性。通过公开记录其训练数据范围同时保持某些专有细节(例如,人类反馈强化学习RLHF数据集大小),DeepSeek平衡了开源可访问性与战略创新。这些努力不仅推进了LLM的技术能力,还确立了伦理数据管理的基准,挑战了专有AI开发中的现行规范,强调了人类专业知识在塑造强大通用模型中的基础作用。R1和v3模型在披露开源框架中人类生成训练数据规模方面展现了前所未有的透明度。R1模型整合了大量策划的数据集,包括60万推理特定样本和20万监督微调(SFT)数据实例,以及用于RLHF的人类偏好数据集和处理冷启动挑战的合成数据。通过结构化合成数据和人类专业知识解决冷启动挑战,模型实现了训练的功能起点,实现了可扩展改进,同时缓解了早期阶段的低效或偏差。这种方法强调了数据质量和人机协作在克服AI开发基础限制中的关键作用。
图1是一张散点图,基于不同AI模型的MMLU Redux ZeroEval分数(y轴)和输入API每1M标记的价格(x轴)使用对数刻度进行比较。图表突出显示了性能与价格比率,最优范围用阴影区域表示。
DeepSeek-V3位于左上角,用红星标记,表示其具有高分(~89)同时保持低输入成本。这表明DeepSeek-V3在模型中提供了最佳的效率权衡之一。其他模型如Claude 3.5 Sonnet、GPT-4o和Llama-3.1-405B-Instruct也取得了高分,但可能成本更高。像DeepSeek-V2.5和GPT-4o-mini这样的模型位置较低,表示得分较低。可视化表明DeepSeek-V3在成本效益和性能方面比竞争对手具有更好的平衡。
图1. 基于MMLU Redux ZeroEval分数和输入API价格的不同AI模型散点图 [19]
图2呈现了一个基准比较表,评估了多个AI模型,包括DeepSeek-V3、通义千问2.5(72B-Inst.)、Llama3.1(405B-Inst.)、Claude-3.5-Sonnet-1022和GPT-4o-0513的性能。基准涵盖多种类别,如英语语言任务、编码、数学和中文任务。
DeepSeek-V3采用专家混合(MoE)架构,激活参数为37B,总参数为671B,而通义千问2.5和Llama3.1是密集模型。DeepSeek-V3在多项英语基准测试中表现出色,在MMLU-Redux(89.1)、DROP(91.6)和IF-Eval(86.1)中得分最高。在编码方面,DeepSeek-V3在HumanEval-Mul(82.6)中领先,并在Aider-Edit(79.7)中表现出色。DeepSeek-V3在AIME 2024(39.2)和CNMO 2024(43.2)数学测试中显著优于其他模型。在中文任务中,DeepSeek-V3在C-Eval(86.5)和C-SimpleQA(64.1)中表现出色,尽管通义千问2.5在CLUEWSC(91.4)中胜过它。
基准(指标) | DeepSeek-V3 | 通义千问2.572B-Inst. | Llama3.1405B-Inst. | Claude-3.5-Sonnet-1022 | GPT-400513 | |
---|---|---|---|---|---|---|
架构 | MoE | Dense | Dense | - | - | |
激活参数数量 | 37B | 72B | 405B | - | - | |
总参数数量 | 72B | 405B | - | 18 | ||
MMLU (EM)MMLU-Redux (EM) | 88.5 | 85.3 | 88.6 | 88.3 | 87.2 | |
89.1 | 85.6 | 86.2 | 88.9 | 88 | ||
MMLU-Pro (EM) | 75.9 | 71.6 | 73.3 | 78 | 72.6 | |
DROP (3-shot F1) | 91.6 | 76.7 | 88.7 | 88.3 | 83.7 | |
英语 | IF-Eval (Prompt Strict) | 86.1 | 84.1 | 86 | 86.5 | 84.3 |
GPQA-Diamond (Pass@1) | 59.1 | 49 | 51.1 | 65 | 49.9 | |
SimpleQA (Correct) | 24.9 | 9.1 | 17.1 | 28.4 | 38.2 | |
FRAMES (Acc.) | 73.3 | 69.8 | 70 | 72.5 | 80.5 | |
LongBench v2 (Acc.) | 48.7 | 39.4 | 36.1 | 41 | 48.1 | |
HumanEval-Mul (Pass@1) | 82.6 | 77.3 | 77.2 | 81.7 | 80.5 | |
LiveCodeBench(Pass@1-COT) | 40.5 | 31.1 | 28.4 | 36.3 | 33.4 | |
LiveCodeBench (Pass@1) | 37.6 | 28.7 | 30.1 | 32.8 | 34.2 | |
编码 | Codeforces (百分位数) | 51.6 | 24.8 | 25.3 | 20.3 | 23.6 |
SWE Verified (Resolved) | 42 | 23.8 | 24.5 | 50.8 | 38.8 | |
Aider-Edit (Acc.) | 79.7 | 65.4 | 63.9 | 84.2 | 72.9 | |
Aider-Polyglot (Acc.) | 49.6 | 7.6 | 5.8 | 45.3 | 16 | |
AIME 2024 (Pass@1) | 39.2 | 23.3 | 23.3 | 16 | 9.3 | |
数学 | MATH-500 (EM) | 90.2 | 80 | 73.8 | 78.3 | 74.6 |
CNMO 2024 (Pass@1) | 43.2 | 15.9 | 6.8 | 13.1 | 10.8 | |
CLUEWSC (EM) | 90.9 | 91.4 | 84.7 | 85.4 | 87.9 | |
中文 | C-Eval (EM) | 86.5 | 86.1 | 61.5 | 76.7 | 76 |
C-SimpleQA (Correct) | 64.1 | 48.4 | 50.4 | 51.3 | 59.3 |
DeepSeek-V3在多个领域表现出色,尤其是在英语推理、编码和数学方面,相较于图2中的其他AI模型表现优异。
图2. 基于MMLU Redux ZeroEval分数和输入API价格的不同AI模型散点图 [19].
3. 通义千问模型
通义千问是一种配备创新技术方法的模型,这些方法在大型语言模型领域的通用和特定任务中提供了高性能。这些方法在数据选择、模型架构、训练过程和可扩展性方面不同于其他模型,使通义千问成为学术和工业应用以及数学、编码等专门领域的关键选项 [17]。
通义千问在数据选择和预处理方面与众不同,因为它是在高质量和多样化的数据集上进行训练的。使用的数据源涵盖了通用语言使用和专门领域(科学、数学、编程等)。通义千问部署领域特定的微调技术,以便在数学推理、编码和科学文本等专门领域表现良好。
通义千问采用基于变压器的架构,但包含各种优化以使该架构更高效。特别是,改进注意机制允许模型更快、更准确地处理更长的文本。通义千问的架构在消耗较少资源的情况下提供类似或更好的性能。通义千问的训练过程包括特殊的优化技术,如使用课程学习方法。模型首先在简单任务上进行训练,然后转移到更复杂任务上。这使得模型能够更快、更稳定地学习。此外,混合精度训练等技术在训练时间上提供了显著节省。通义千问使用分布式训练和模型并行技术以提高大规模训练过程中的资源效率。这使得模型可以在更大数据集上更快、更高效地训练。此外,推理过程中的优化使得模型在实时应用中工作得更快。训练和推理过程中使用的优化技术使通义千问成为一个消耗较少资源且工作更快的模型 [17, 18]。
图3是一张条形图,比较了各种AI模型——通义千问2.5-Max、DeepSeek-V3、Llama-3.1-405B-Inst、GPT-4o-0806和Claude-3.5-Sonnet-1022——在多个基准任务中的表现。这些基准包括Arena-Hard、MMLU-Pro、GPQA-Diamond、LiveCodeBench(24.08-24.11)和LiveBench(2024-08-31)。
通义千问2.5-Max(红色条形)在所有基准测试中得分最高,特别是在Arena-Hard(89.4)和LiveBench(62.2)中。DeepSeek-V3(蓝色条形)紧随其后,竞争激烈,特别是在Arena-Hard(85.5)和MMLU-Pro(75.9)中得分很高。GPT-4o-0806和Claude-3.5- Sonnet-1022在某些任务中表现良好,但其得分在不同基准测试中有所波动。Llama-3.1-405B-Inst通常得分低于顶级模型。
该可视化表明,通义千问2.5-Max整体表现领先,但DeepSeek-V3在推理和编码相关的基准测试中仍然高度竞争。
4. 材料与方法
本研究通过对Aydın和Karaarslan [31] 的题为“由OpenAI ChatGPT生成的文献综述:医疗保健中的数字孪生”的研究中考察的内容进行更详细和深入的分析,包括不同的LLM模型,并揭示该主题的不同方面。在之前的研究中,使用ChatGPT(GPT-3)生成了对两个基本问题的回答,并改写了大约40篇学术文章的摘要。根据从该方法获得的结果,本研究将按照以下步骤进行,以覆盖更广泛的模型:
通义千问2.5 Max、DeepSeek v3、deepseek-coder-v2 16B、ChatGPT 4.0、ChatGPT 4.0 Mini、Gemini Flash 1.5、Gemma 27B、Llama 3.1 8B、Llama 2 7B和Mistral 7B AI模型将用于生成文本。
AnythingLLM和Ollama用于运行LLM的本地副本(DeepSeek-Coder-v2 16B、Llama 3.1 8B、Llama 2 7B和Mistral 7B),所有查询均由这些工具处理。文本是在配备AMD Ryzen 7 4800H CPU、16GB RAM和带有4GB DDR4 VRAM的Nvidia GeForce GTX 1650i的计算机上生成的。
本研究将按以下步骤进行:
- 使用每个模型回答问题“What is Digital Twin?”。
- 记录从模型获得的答案。
- 要求每个模型为“Digital Twin in Healthcare”主题创建一段文本。这些文本也将单独保存。
- 将表1中列出的40篇学术文章的摘要提交给每个模型并要求改写。保存生成的文本。
- 使用Ithenticate抄袭检测工具分析所有生成的文本,并根据抄袭率进行评估。
- 根据模型对抄袭分析结果进行比较。
- 将每个模型生成的文本通过以下AI检测代理:StealthWriter.ai、http://Quillbot.com。这些测试旨在测量生成的文本是否由LLM使用AI产生的可检测性。
- 所有获得的数据将在以下标题下进行比较:
- 对“What is Digital Twin?”问题的回答相似率
- “Digital Twin in Healthcare”文本的相似率
- 文章摘要的改写相似率
- AI可检测率
- 可读性检查率
- 生成词数比较
- 语义相似性检查
结果将以涵盖所有模型的详细表格形式呈现,并对模型之间的差异、优势和劣势进行评论。此外,将比较之前研究中ChatGPT获得的结果与新研究中的结果,并分析随时间的发展。
找到回答以下问题的方法也在应用研究方法中发挥了重要作用:“如何从原创性、可读性、人工智能使用和语义相似性方面分析文本?” 抄袭检测器通过检查文本是否与原始来源过度相似来给出抄袭百分比,为此我们使用了iThenticate [97]。iThenticate保留了过去的在线内容记录,即使这些内容后来已被删除。这使得它可以检测到不再可在互联网上访问的源材料中的抄袭行为 [98]。为了确定可读性水平,诸如Hemingway Editor、Grammarly或WebFX之类的可读性检查器评估了改写复杂来源时文本的易于理解程度。我们在本研究中进行这些工具的分析。此外,可以使用诸如QuillBot或StealthWriter之类的AI检测工具,通过测量文本的某些特征来确定文本是否由人工智能创建。我们在本研究范围内使用这些AI工具分析了生成的文本。使用诸如ChatGPT、DeepSeek v3或通义千问2.5 Max之类的工具进行的语义相似性检查允许根据其语义完整性和语义关系来检查文本的等价性,因此我们在这些工具的基础上进行了语义相似性分析。文章主要选自2020年、2021年和2022年的研究。未特别评估更近期的研究。由于研究涉及抄袭检查等过程,确定较旧的研究更容易被这些工具检测到,这影响了文章的选择。表1显示了被LLM改写的摘要的研究。如前所述,选择这些文章的原因是为了能够与Aydın和Karaarslan [31] 进行的研究进行比较。这样可以同时提供现有模型的新版本和新增加模型的比较评估。
表1. 用于改写过程的论文
# | 作者 | 年份 | 标题 | 期刊/书籍/会议 |
---|---|---|---|---|
[31] | Aydın, Ö., & Karaarslan, E. | 2020 | 基于数字孪生的健康信息系统用于检测COVID-19症状 | 线上国际COVID-19会议(CONCOVID) |
[32] | Coorey,G.,Figtree,G.A.,Fletcher, D. F., & Redfern, J. | 2021 | 健康数字孪生:推动精准心血管医学的发展。 | 自然评论心脏病学 |
[33] | Volkov, I., Radchenko, G., &Tchernykh, A. | 2021 | 数字孪生、物联网和移动医学:当前平台综述以支持智能医疗。 | 编程与计算机软件 |
[34] | Shengli, W. | 2021 | 人类数字孪生是否可能?. | 计算机方法与生物医学程序更新 |
[35] | Garg, H. | 2020 | 数字孪生技术:革新个性化医疗保健 | 科学进步与研究 |
[36] | Popa, E. O., van Hilten, M.,Oosterkamp, E., & Bogaardt, M.J. | 2021 | 数字孪生在医疗保健中的应用:社会伦理利益与社会伦理风险。 | 生命科学、社会与政策 |
[37] | Elayan,H.,Aloqaily,M.,&Guizani, M. | 2021 | 数字孪生用于智能情境感知物联网医疗保健系统。 | IEEE物联网期刊 |
[38] | Gupta, D., Kayode, O., Bhatt, S.,Gupta, M., & Tosun, A. S. | 2021 | 基于层级联邦学习的异常检测使用数字孪生用于智能医疗保健。 | 2021 IEEE第七届国际协作与互联网计算会议(CIC) |
[39] | Zheng, Y., Lu, R., Guan, Y.,Zhang, S., & Shao, J. | 2021 | 面向私密相似性查询的数字孪生云平台上的医疗监控。 | 2021IEEE/ACM第29届国际服务质量研讨会(IWQOS) |
[40] | Benson, M. | 2021 | 数字孪生将革命性变革医疗保健。 | 工程与技术 |
[41] | Yang, D., Karimi, H. R., Kaynak,O., & Yin, S. | 2021 | 工业、智慧城市和医疗保健领域中数字孪生技术的发展:一项调查。 | 复杂工程系统 |
[42] | EL Azzaoui, A., Kim, T. W., Loia,V., & Park, J. H. | 2021 | 基于区块链的安全数字孪生框架用于智能健康城市。 | 先进多媒体和无处不在工程 |
[43] | De Maeyer, C., & Markopoulos,P. | 2021 | 专家对未来前景的看法:数字孪生在医疗保健中的实现、期望和实施。 | 与计算机互动 |
[44] | Angulo, C., Gonzalez-Abril, L.,Raya, C., & Ortega, J. A. | 2020 | 向数字孪生在医疗保健领域的演进提议。 | 国际生物信息学与生物医学工程工作会议 |
[45] | Boată, A., Angelescu, R., &Dobrescu, R. | 2021 | 在医疗保健中使用数字孪生。 | UPB科学公报,系列C:电气工程和计算机科学 |
[46] | Madubuike, O. C., & Anumba, C.J. | 2021 | 数字孪生在医疗设施管理中的应用。 | 土木工程计算2021 |
[47] | Voigt, I., Inojosa, H., Dillenseger,A., Haase, R., Akgün, K., &Ziemssen, T. | 2021 | 多发性硬化症的数字孪生。 | 免疫学前沿 |
[48] | Kamel Boulos, M. N., & Zhang, P. 2021 | 数字孪生:从个性化医学到精准公共健康。 | 个性化医学杂志 | |
[49] | Hussain, I., Hossain, M. A., &Park, S. J. | 2021 | 用于诊断中风的医疗数字孪生。 | 2021IEEE生物医学工程、计算机和信息技术健康国际会议(BECITHCON) |
[50] | Thiong’o, G. M., & Rutka, J. T. | 2021 | 数字孪生技术:预测儿科癌症及其治疗的神经并发症的未来。 | 肿瘤学前沿 |
[51] | Alazab, M., Khan, L. U., Koppu,S., Ramu, S. P., Iyapparaja, M.,Boobalan, P., & Aljuhani, A. | 2022 | 医疗保健4.0中的数字孪生—最新进展、架构和开放挑战。 | IEEE Consumer ElectronicsMagazine. |
---|---|---|---|---|
[52] | Yu, Z., Wang, K., Wan, Z., Xie,S., & Lv, Z. | 2022 | FMCPNN在数字孪生智能医疗中的应用。 | IEEE Consumer ElectronicsMagazine. |
[53] | Okegbile, S. D., Cai, J., Yi, C., &Niyato, D. | 2022 | 用于个性化医疗的个人数字孪生:愿景、架构和未来方向。 | IEEE Network. |
[54] | Subramanian, B., Kim, J., Maray,M., & Paul, A. | 2022 | 数字孪生模型:实时情绪识别系统用于个性化医疗保健。 | IEEE Access |
[55] | Hassani,H.,Huang,X.,&MacFeely, S. | 2022 | 医疗保健革命中的重要数字孪生。 | BigDataandCognitiveComputing |
[56] | Huang, P. H., Kim, K. H., &Schermer, M. | 2022 | 个性化医疗保健服务中数字孪生的伦理问题:初步映射研究。 | Journal of Medical InternetResearch |
[57] | Sahal, R., Alsamhi, S. H., &Brown, K. N. | 2022 | 个人数字孪生:深入了解现状并向个性化医疗行业的未来迈进。 | Sensors |
[58] | Wickramasinghe, N. | 2022 | 医疗保健中的数字孪生案例。 Digital | DisruptioninHealthcare |
[59] | Akash, S. S., & Ferdous, M. S. | 2022 | 基于区块链的医疗数字孪生系统。 | IEEE Access |
[60] | Ferdousi,R.,Laamarti,F.,Hossain, M. A., Yang, C., & ElSaddik, A. | 2022 | 用于福祉的数字孪生:概述。 Digital Twin | |
[61] | Khan, A., Milne-Ives, M., Meinert,E., Iyawa, G. E., Jones, R. B., &Josephraj, A. N. | 2022 | 新冠疫情背景下数字孪生的范围审查。 | Biomedical E—— |
ngineering andComputational Biology | ||||
[62] | Kleftakis, S., Mavrogiorgou, A.,Mavrogiorgos, K., Kiourtis, A., & Kyriazis, D. | 2022 | 通过维特鲁威人的视角看医疗保健中的数字孪生。 | 医学与健康创新 |
[63] | Mulder, S. T.
——, Omidvari, A. H.,Rueten-Budde, A. J., Huang, P.H., Kim, K. H., Bais, B., &Steegers-Theunissen, R. | 2022 | 动态数字孪生:诊断、治疗、预测和疾病预防的生命历程。 | 医疗互联网研究杂志 |
[64] | Ramu, S. P., Boopalan, P.,Pham, Q. V., Maddikunta, P. K.R., Huynh The, T., Alazab, M.,& Gadekallu, T. R. | 2022 | 联邦学习支持的数字孪生:概念、最新进展和未来方向。 | 可持续城市与社会 |
[65] | Song, Y., & Li, Y. . | 2022 | 数字孪生辅助的医疗设施管理:上海同济医院案例研究。 | 建设研究大会2022 |
[66] | Khan,S.,Arslan,T.,&Ratnarajah, T. | 2022 | 第四次工业革命和医疗保健中的数字孪生视角。 | IEEE Access |
[67] | Pesapane, F., Rotili, A., Penco,S., Nicosia, L., & Cassano, E. | 2022 | 放射学中的数字孪生。 | 临床医学杂志 |
[68] | Ricci,A.,Croatti,A.,&Montagna, S. | 2022 | 普适性和连接的数字孪生–数字健康的愿景。 | IEEE Internet Computing |
[69] | Sun, T., He, X., & Li, Z. | 2023 | 医疗保健中的数字孪生:最新进展与挑战。 | 数字健康 |
[70] | Machado, T. M., & Berssaneti, F.T. | 2023 | 医疗保健中数字孪生的文献综述。 | Heliyon |
5. 研究结果与发现
生成文本的长度通常被视为不重要。当给定生成文本的长度时,聊天机器人可以根据要求生成相应长度的文本。生成文本的字数和长度也可能与LLM设置有关。另一方面,如果生成的文本过长,可能会产生在意义和内容上不必要的输出,并影响可读性。因此,生成文本的长度本身并无意义,但在我们分析中使用的原始文本的语义相似性和可读性方面可能很重要。此时,检查不同模型在默认设置下生成文本的长度是有用的。表2中的数据包括在“数字孪生”和“数字孪生在医疗保健”主题上生成的文本的字数和字符数。根据分析结果,通义千问2.5 Max模型总共生成了最多的字数(1222字)和字符数(7371字符)。其次是DeepSeek v3和ChatGPT 4o。另一方面,虽然Mistral 7B和Deepseek-coder-v2 16B模型生成的字数和字符数较少,但特别值得注意的是Deepseek-coder-v2 16B总共仅生成了174字和1133字符。这些发现是了解每个AI模型生成内容的范围和详细程度的重要指标。比较不同模型的表现可以提供关于哪个模型在某些使用场景下可能更合适的想法。
# | 模型 | 问题1: 什么是数字孪生? | 问题2: 创建一个关于“数字孪生在医疗保健”部分的文本 | 总计 | |||
---|---|---|---|---|---|---|---|
生成的字数 | 生成的字符数(无空格) | 生成的字数 | 生成的字符数(无空格) | 生成的字数 | 生成的字符数(无空格) | ||
1 | ChatGPT 4o | 252 | 1658 | 441 | 2834 | 693 | 4492 |
2 | ChatGPT 4o mini | 209 | 1269 | 198 | 1245 | 407 | 2514 |
3 | Gemini 1.5 Flash | 229 | 1479 | 340 | 2207 | 569 | 3686 |
4 | 通义千问2.5 Max | 659 | 3832 | 563 | 3539 | 1222 | 7371 |
5 | DeepSeek v3 | 204 | 1290 | 539 | 3416 | 743 | 4706 |
6 | Deepseek-coder-v216B | 40 | 253 | 134 | 880 | 174 | 1133 |
7 | Llama 3.1 8B | 124 | 682 | 401 | 2553 | 525 | 3235 |
8 | Llama 2 7B | 158 | 930 | 256 | 1653 | 414 | 2583 |
9 | Gemma 27B | 346 | 2115 | 239 | 1576 | 585 | 3691 |
10 | Mistral 7B | 60 | 331 | 343 | 2053 | 403 | 2384 |
表2. 对提问生成文本的统计
我们分析了不同AI模型改写所选40篇文章摘要部分生成的文本的字数和字符数。根据表3中的数据,可以看到原始文档总共有7341个字和42,326个字符。检测到AI模型生成的改写文本存在差异。虽然通义千问2.5 Max模型生成了最多的字数(6589字)和字符数(41,397字符),ChatGPT 4o mini和DeepSeek v3表现类似。另一方面,Llama 3.1 8B模型生成的字数最少,仅有2615字和16,178字符。这些发现表明,每个AI模型在改写原文本时采用不同的方法,并在此过程中保持内容密度的程度有所不同。特别是观察到一些模型生成了更短、更简洁的表达,而其他模型则生成了更详细和全面的输出。这些差异构成了评估某些场景下哪种模型可能更合适的的重要标准。
# | 模型 | 生成的字数 | 生成的字符数 (无空格) |
---|---|---|---|
0 | 原始文档 | 7341 | 42326 |
1 | ChatGPT 4o | 6241 | 39657 |
2 | ChatGPT 4o mini | 6455 | 39538 |
3 | Gemini 1.5 Flash | 5950 | 36605 |
4 | 通义千问2.5 Max | 6589 | 41397 |
5 | DeepSeek v3 | 6446 | 40371 |
6 | Deepseek-coder-v216B | 5955 | 37274 |
7 | Llama 3.1 8B | 2615 | 16178 |
8 | Llama 2 7B | 3311 | 19837 |
9 | Gemma 27B | 4937 | 31229 |
10 | Mistral 7B | 4182 | 25432 |
表3. 改写摘要生成文本的统计
我们通过Ithenticate分析了通过改写文章摘要生成的文本和对不同主要语言模型的问题回答情况下的抄袭率。根据表4中的数据,在问答过程中的抄袭率在19%至39%之间变化,而在改写摘要中的抄袭率在9%至57%之间变化。特别是,ChatGPT 4o mini在改写文本中的抄袭率被确定为57%,这是所有模型中最高的比率。相比之下,Llama 3.1 8B模型在改写文本中的抄袭率保持在最低水平,仅为9%。此外,观察到Deepseek-coder-v2 16B模型在问答(19%)和改写(38%)过程中表现出相对较低的抄袭率。这些发现表明,不同模型生成内容的原创性水平存在显著差异,并提供了关于哪些模型在改写过程中更为可靠的见解。这些抄袭率的变化揭示了每个模型在改写能力及对源材料忠实度方面的差异。
# | 模型 | 文本 | Ithenticate抄袭检查率 (匹配率) |
---|---|---|---|
1 | ChatGPT 4o | 问题与回答 | 26% |
摘要改写 | 46% | ||
2 | ChatGPT 4o mini | 问题与回答 | 30% |
摘要改写 | 57% | ||
3 | Gemini 1.5 Flash | 问题与回答 | 39% |
摘要改写 | 17% | ||
4 | 通义千问2.5 Max | 问题与回答 | 29% |
摘要改写 | 47% | ||
5 | DeepSeek v3 | 问题与回答 | 37% |
摘要改写 | 47% | ||
6 | Deepseek-coder-v2 16B | 问题与回答 | 19% |
摘要改写 | 38% | ||
7 | Llama 3.1 8B | 问题与回答 | 36% |
摘要改写 | 9% | ||
8 | Llama 2 7B | 问题与回答 | 30% |
摘要改写 | 15% | ||
9 | Gemma 27B | 问题与回答 | 29% |
摘要改写 | 11% | ||
10 | Mistral 7B | 问题与回答 | 29% |
摘要改写 | 45% |
表4. | 生成文本抄袭结果 | |
---|---|---|
———- | – | ———————————— |
在表5中,我们通过AI检测工具(http://quillbot.com和stealthwriter.ai)评估了通过改写文章摘要生成的文本和对LLMs提问的回答文本的AI生产率。根据表5中的数据,几乎所有在问答过程中生成的文本都被确定为AI生成(100%或接近于它)。这些比率在改写摘要文本中差异更大。例如,Llama 3.1 8B和Llama 2 7B模型在http://quillbot.com上的改写输出分别被确定为64%和62%的AI生产,而stealthwriter.ai报告这些比率为89%和90%。同样,Mistral 7B的改写输出在http://quillbot.com上为80%的AI生产,而在stealthwriter.ai上下降到62%。这些结果表明,不同的AI检测工具在分析相同文本时可以产生不同的比率,并且某些模型在改写过程中留下的AI痕迹较少。这构成了评估哪个模型的输出更自然或更像人类的重要标准。
# | 模型 | 文本 | http://quillbot.com (AI Rate) | stealthwriter.ai (AI Rate) | |||
---|---|---|---|---|---|---|---|
1 | ChatGPT 4o | 问题与回答 | 100% AI生成 | 100% AI生成 | |||
摘要改写 | 96% AI生成 | 86% AI生成 | |||||
2 | ChatGPT 4o mini | 问题与回答 | 87% AI生成 | 95% AI生成 | |||
摘要改写 | 77% AI生成 | 82% AI生成 | |||||
3 | Gemini 1.5 Flash | 问题与回答 | 100% AI生成 | 100% AI生成 | |||
摘要改写 | 96% AI生成 | 97% AI生成 | |||||
4 | 通义千问2.5 Max | 问题与回答 | 96% AI生成 | 100% AI生成 | |||
摘要改写 | 86% AI生成 | 93% AI生成 | |||||
5 | DeepSeek v3 | 问题与回答 | 100% AI生成 | 100% AI生成 | |||
摘要改写 | 88% AI生成 | 86% AI生成 | |||||
6 | Deepseek-coder | 问题与回答 | 100% AI生成 | 100% AI生成 | |||
v2 16B | 摘要改写 | 76% AI生成 | 74% AI生成 |
表5. | AI检测结果 | ||
---|---|---|---|
———- | – | ——————— | – |
7 | Llama 3.1 8B | 问题与回答 | 100% AI生成 | 100% AI生成 | |||
---|---|---|---|---|---|---|---|
摘要改写 | 64% AI生成 | 89% AI生成 | |||||
8 | Llama 2 7B | 问题与回答 | 100% AI生成 | 100% AI生成 | |||
摘要改写 | 62% AI生成 | 90% AI生成 | |||||
9 | Gemma 27B | 问题与回答 | 100% AI生成 | 100% AI生成 | |||
摘要改写 | 100% AI生成 | 95% AI生成 | |||||
10 | Mistral 7B | 问题与回答 | 100% AI生成 | 100% AI生成 | |||
摘要改写 | 80% AI生成 | 62% AI生成 |
在表6中,我们考察了Hemingway Editor、Grammarly和WebFX工具的输出,以评估由不同AI大型语言模型生成的文本的可读性分析结果。Hemingway Editor的可读性评分普遍较低,所有模型均被评为“差”。根据Grammarly分析,句子长度和词汇复杂度差异显著。例如,Deepseek-coder-v2 16B模型问答输出的平均句长为24.9词,而Llama 3.1 8B改写输出的句长为20.6词。Grammarly评分应为60以达到良好的可读性。因此,表6中的Grammarly评分非常低。此外,WebFX提供的可读性评分也介于5.8%到24.8%之间。特别是,Llama 2 7B模型的改写输出具有最高的可读性评分,为24.8%,而Deepseek-coder-v2 16B的问答输出具有最低的评分,为5.8%。WebFX评分超过100,因此这些评分非常低。这些发现表明,AI模型生成的文本倾向于使用复杂且难以阅读的语言。然而,可以看出一些模型通过使用较短的句子和更简单的结构来提高可读性。可以得出结论,需要更多努力来提高文本的易理解性,特别是在改写过程中。这些分析在理解某些场景下哪个模型可以生成更用户友好的文本方面起着重要作用。
# | 模型 | 文本 | Hemingway Editor | WebFX | ||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
X/总句子很难读懂 | X/总句子难读懂 | 弱点数量 | 使用更简单替代方案的单词数 | 可读性评分 | 单词长度 | 句子长度 | 可读性评分 | 文本评分 | 可读性 | |||
1 | ChatGPT4o | 问题与回答 | 23/44 | 0/44 | 7 | 7 | 差 | 6.5 | 15.2 | 7 | 91% | 12.7% |
摘要改写 | 233/289 | 25/289 | 95 | 47 | 差 | 6.2 | 21.3 | 10 | 91% | 13.1% | ||
2 | ChatGPT4o mini | 问题与回答 | 14/20 | 3/20 | 6 | 5 | 差 | 6 | 20.1 | 15 | 92% | 23.5% |
摘要改写 | 223/290 | 31/290 | 128 | 48 | 差 | 6 | 22.4 | 16 | 86% | 20% | ||
3 | Gemini1.5 Flash | 问题与回答 | 16/43 | 0/43 | 10 | 3 | 差 | 6.4 | 12.9 | 12 | 93% | 12.9% |
摘要改写 | 174/387 | 36/387 | 91 | 52 | 差 | 6.1 | 14.9 | 19 | 92% | 22.2% | ||
4 | 通义千问2.5Max | 问题与回答 | 38/78 | 4/78 | 18 | 11 | 差 | 6 | 15.1 | 18 | 87% | 23.2% |
摘要改写 | 240/303 | 26/303 | 110 | 56 | 差 | 6.1 | 21.8 | 12 | 89% | 15% | ||
5 | DeepSeek v3 | 问题与回答 | 23/53 | 3/53 | 10 | 3 | 差 | 6.3 | 13.6 | 15 | 88% | 20.5% |
摘要改写 | 231/289 | 23/289 | 116 | 54 | 差 | 6.1 | 22.4 | 11 | 87% | 14.6% |
表6. 可读性检查结果
6 | Deepseek-coder-v216B | 问题与回答 | 6/7 | 0/7 | 4 | 1 | 差 | 6.4 | 24.9 | 3 | 90% | 5.8% |
---|---|---|---|---|---|---|---|---|---|---|---|---|
摘要改写 | 212/241 | 14/241 | 107 | 54 | 差 | 6.1 | 24.7 | 9 | 84% | 12.7% | ||
7 | Llama 3.18B | 问题与回答 | 17/29 | 3/29 | 6 | 5 | 差 | 6.2 | 17.5 | 15 | 89% | 10.8% |
摘要改写 | 95/127 | 16/127 | 37 | 19 | 差 | 6 | 20.6 | 17 | 88% | 21.6% | ||
8 | Llama 27B | 问题与回答 | 13/23 | 3/23 | 4 | 4 | 差 | 6.2 | 17.6 | 17 | 91% | 11% |
摘要改写 | 126/153 | 16/153 | 62 | 17 | 差 | 5.8 | 21.6 | 22 | 87% | 24.8% | ||
9 | Gemma27B | 问题与回答 | 20/39 | 4/39 | 11 | 7 | 差 | 6.1 | 14.9 | 19 | 94% | 15.7% |
摘要改写 | 200/254 | 19/254 | 73 | 30 | 差 | 6.2 | 19.4 | 15 | 94% | 17.2% | ||
10 | Mistral 7B 问题与回答 | 14/18 | 4/18 | 6 | 0 | 差 | 5.8 | 22.4 | 22 | 87% | 22.4% | |
摘要改写 | 152/179 | 9/179 | 73 | 31 | 差 | 5.9 | 23.4 | 16 | 83% | 19.4% |
根据表7中的数据,所有模型的改写输出与原始文本具有高度的语义相似性。通过ChatGPT、DeepSeek v3和通义千问2.5 Max工具进行的评估显示,由ChatGPT 4o、ChatGPT 4o mini、DeepSeek v3、Gemini 1.5 Flash、Gemma 27B、Llama 2 7B、Llama 3.1 8B、Mistral 7B和通义千问2.5 Max等模型生成的改写文本通常获得了高于90%的语义相似性评分。
例如,ChatGPT 4o改写的文本在ChatGPT中的语义相似率为89%,在DeepSeek v3中为95%,在通义千问2.5 Max中为98%。同样,Mistral 7B模型的改写输出在ChatGPT中显示出96.12%的语义相似性,在DeepSeek v3中为85%,在通义千问2.5 Max中为94%。最低的相似率是在使用DeepSeek v3工具评估Llama 3.1 8B模型时发现的(86.88%)。然而,即使这个比率也表明语义完整性得到了很大程度的保留。
这些发现为我们提供了关于不同AI模型在改写过程中如何很好地保留原始文本含义的重要线索。特别是,通义千问2.5 Max和DeepSeek v3工具相比其他工具提供了更一致和更高的相似率。总体而言,可以得出结论,所有模型的改写输出与原始文本具有强烈的语义关系。这表明这些模型在知识传递和改写过程中是可靠的。
# | 首个内容文本 | 对比文本 | 语义相似性工具结果 | ||
---|---|---|---|---|---|
chatGPT | DeepsSeekv3 | 通义千问2.5Max | |||
1 | 文章的原始摘要文本 | 由chatGPT 4o改写的摘要文本 | 89% | 95% | 98% |
2 | 文章的原始摘要文本 | 由chatGPT 4o mini改写的摘要文本 | 91% | 95% | 96% |
3 | 文章的原始摘要文本 | 由DeepSeek v3改写的摘要文本 | 92% | 98% | 97% |
4 | 文章的原始摘要文本 | 由DeepSeek v216B改写的摘要文本 | 91% | 97% | 95% |
5 | 文章的原始摘要文本 | 由Gemini 1.5Flash改写的摘要文本 | 93.47% | 96% | 94% |
6 | 文章的原始摘要文本 | 由Gemma 27B改写的摘要文本 | 92.06% | 98% | 96% |
7 | 文章的原始摘要文本 | 由Llama 2 7B改写的摘要文本 | 90.21% | 97% | 96% |
8 | 文章的原始摘要文本 | 由Llama 3.1 8B改写的摘要文本 | 86.88% | 98% | 95% |
9 | 文章的原始摘要文本 | 由Mistral 7B改写的摘要文本 | 96.12% | 85% | 94% |
10 文章的原始摘要文本 | 由通义千问2.5 Max改写的摘要文本 | 96.56% | 90% | 97% |
表7. | 语义相似度评分 | ||
---|---|---|---|
———- | ————————— | – | – |
6. 讨论与结论
除了促进协作进步外,开源实践还作为关键保障,防止AI能力集中在有限的企业范围内。将基础模型的访问权分散化可以减轻与垄断控制相关的风险,如强加专有偏见或对变革性技术的单边治理。通过确保共享工具的公平访问,开源框架促进了更具包容性的生态系统,使各种利益相关者能够贡献并审查AI的发展,从而促进透明度并减少对集中实体的依赖。这种方法不仅推进了技术前沿,还符合将AI的社会效益和风险公平分配的伦理要求。DeepSeek的性能在于其系统化的效率方法,结合更智能的数据提取、优化架构、先进训练技术和消除不必要的计算。这些创新不仅降低成本,还为可扩展和成本效益高的AI训练设定了新标准。随着AI领域的不断发展,DeepSeek的突破引发了关于模型扩展未来和较小实体与行业巨头竞争潜力的重要问题。
本研究提供了对各种生成式AI模型的详细评估,重点是它们的学术写作能力。讨论集中在结果部分的关键发现上,包括生成的字数、抄袭检测、AI可检测性、可读性和语义相似性指标。我们关于研究问题的发现提供了关于这些模型在不同使用场景中可能扮演角色的重要线索。
通义千问2.5 Max和DeepSeek v3在生成的文本中提供了全面和详细的输出,特别是在“数字孪生”和“数字孪生在医疗保健”主题上。如表2所示,通义千问2.5 Max总共生成了最多的字数(1222字)和字符数(7371字符),而DeepSeek v3表现出类似的性能。这表明这些模型在知识密集型任务上尤其有效。然而,一些模型如Mistral 7B和Deepseekcoder-v2 16B生成了更简洁的表达,表明它们在某些场景下可能更适合。
尽管比率有所不同,但一些机构和大学允许的抄袭率设定为10-15% [99]。一些期刊允许高达20%的匹配率 [100]。在大多数情况下,报告中的匹配分析也会与比率一起进行。块匹配或来自单一来源的匹配会被考虑 [101]。根据抄袭分析结果(表4),通义千问2.5 Max和DeepSeek v3在改写过程中表现出中等抄袭率(47%和47%),而Llama 3.1 8B模型的抄袭率最低(9%)。此外,Deepseek-coder-v2 16B模型在问答(19%)和改写(38%)过程中表现出相对较低的抄袭率。这些发现揭示了一些模型在改写能力及其对源材料依赖性方面的差异。特别是Llama 3.1 8B的低抄袭率表明该模型在改写过程中可能更可靠。
根据AI检测工具的分析结果(表5),几乎所有的问答过程中生成的文本(100%或接近它)都被确定为人工智能创建。在改写过程中,这些比率显示出更多的差异。例如,虽然Llama 3.1 8B和Llama 2 7B模型的改写输出在http://quillbot.com上分别被确定为64%和62%的人工智能生成,但stealthwriter.ai报告这些比率分别为89%和90%。这些结果表明,一些模型留下了较少的人工智能痕迹,因此可以生成更自然或更像人类的文本。
我们应该知道,Grammarly可读性评分应在60左右才能保证良好的可读性[102],而WebFX可读性评分应超过100[103],以便分析表6中的可读性评分。根据这些信息,所有模型倾向于使用一般较为复杂和难以阅读的语言。根据Hemingway Editor的结果,问答和改写摘要文本中的句子都非常难以阅读。虽然Llama 2 7B模型的改写输出在WebFX提供的可读性评分为24.8%,是最高值,但Deepseek-coder-v2 16B的问答输出仅为5.8%,是最低值。这表明即使可读性较低,某些模型仍能生成比其他模型更用户友好的文本。低可读性评分应由语言学家讨论,并应考虑需要进行的技术调整以促进其发展。这可能是由于LLMs通常可以生成长、复杂和学术化的句子。可读性测试(Flesch-Kincaid、Gunning Fog Index等)倾向于奖励短而简单的句子高分。此外,大型语言模型使用广泛的词汇量,有时会包含罕见词汇。过于技术化或抽象的术语可能导致低分测试。此外,LLMs有时使用过于详细和重复的表达。虽然可读性测试奖励直接和清晰的表达,过度解释可能导致低分。LLMs有时添加不必要的词以使答案更自然流畅。可读性测试对不必要的词持负面评价。最后,这些测试往往衡量小学或中学水平的可读性。LLMs有时会产生过于分析、抽象或深入的答案,降低可读性。
根据语义相似性分析(表7),所有模型的改写输出与原始文本保持了强烈的语义关系。特别是,通义千问2.5 Max和DeepSeek v3工具相比其他工具提供了更一致和更高的相似率。例如,ChatGPT 4o的改写输出与通义千问2.5 Max显示出98%的语义相似性。这些结果表明这些模型在信息传递和改写过程中是可靠的。
在Aydın和Karaarslan [31]的研究中,分析了文章作者撰写的文本和ChatGPT生成的文本的抄袭值。使用了ChatGPT的GPT-3模型,并通过iThenticate对生成的文本进行了评估。根据Aydın和Karaarslan研究的发现和结果,作者撰写的文本的抄袭工具匹配率较低。另一方面,ChatGPT GPT-3对问题的回答匹配率相对较低。相比之下,ChatGPT GPT-3生成的改写摘要文本的匹配率相当高。如果将我们的研究与Aydın和Karaarslan的研究进行比较,我们研究中的问题回答和改写摘要文本的匹配率相对较低。然而,这些结果与文献中有效的/可接受的匹配率相比仍然非常高。对于ChatGPT 4o和ChatGPT 4o mini,改写摘要文本和问题回答的匹配率与Aydın和Karaarslan的研究一致。匹配率的正面发展可能是由于在Aydın和Karaarslan大约两年前进行的研究之后,LLM模型发生了变化和发展。当我们检查我们研究中的其他模型时,可以评估它们通常具有相似的比率。
本研究揭示了通义千问2.5 Max和DeepSeek v3模型在学术写作任务中总体表现更好,但每个模型在不同使用场景下提供了不同的优势。特别是像Llama 3.1 8B和Llama 2 7B这样的模型因其较低的抄袭率和较高的可读性评分而脱颖而出。在AI可检测性方面,观察到一些模型可以生成更自然的文本。这些发现是优化基于AI的文本生成过程和决定哪种模型更适合特定场景的重要指南。未来的研究可以在更大数据集和不同场景下更详细地评估这些模型的性能。
未来研究方向
本研究分析了大型语言模型(LLMs)对学术写作的潜在影响,详细展示了现有模型的优势和不足。本研究识别出的不足和优势可以为未来研究提供指导。继续在这一领域的研究对于改进这些模型的性能以及更好地理解其对学术写作过程的影响至关重要。在当前研究中,使用有限数量的学术文章评估了模型的性能。未来的研究应分析模型的泛化能力及其在涵盖更广泛主题和年份的更大数据集上的跨学科表现。应开展关于如何更有效地将基于AI的写作工具与人类用户结合的研究。人机协作模型可以提高学术写作的质量,同时考虑伦理和法律责任。研究结果显示,AI生成文本的检测率达到很高。未来的研究可以优化模型的生产过程,开发更像人类的写作风格以降低这些比率。更像人类的写作风格的发展可能会使人们滥用LLMs的能力变得更加普遍。因此,应开展关于伦理和法律规则的研究。还应考察LLMs在其他学科中的影响。此类研究将使我们更好地理解模型的更广泛应用案例。应进一步研究AI生成内容的伦理和法律层面。需要对诸如所有权权利、引用规则和此类内容的欺诈潜力等问题进行全面研究。
数据可用性
本文使用的数据可用于科学研究目的,并可与任何感兴趣的人分享,符合伦理原则。为了共享数据,有必要联系文章的通讯作者。
致谢
Ömer Aydin副教授得到了土耳其科学技术研究委员会(TUBITAK)国际博士后研究奖学金计划的支持,在Waterloo大学管理科学与工程系Fatih Safa Erenay副教授的监督下工作。作者感谢土耳其科学技术研究委员会(TUBITAK)和Waterloo大学。
利益冲突声明
作者声明在本文发表方面没有利益冲突。本研究以完整性和透明度进行,外部影响或偏见未影响研究的设计、执行或报告。
资金声明
Ömer Aydin副教授由土耳其科学技术研究委员会(TUBITAK)国际博士后研究奖学金计划资助。
伦理批准声明
作者确认我们承诺在学术研究和出版中维护伦理标准。
作者贡献
所有作者均参与了本研究的撰写工作。本研究中使用测试工具进行的测试由O.A.完成。新模型通义千问2.5和DeepSeek v3的技术分析由E.A.完成。发现、结果和讨论部分由所有作者共同准备。论文由F.S.E.和N.B.D.校对。所有作者均已阅读并批准了本研究的最终版本。
参考文献
[1] OpenAI. (2024). “Hello GPT-4o” Retrieved from https://openai.com/index/hello-gpt-4o/
[2] OpenAI. (2024). “GPT-4o mini: advancing cost-efficient intelligence”. https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/
[3] Google AI. (2024). “Introducing Gemini 1.5, Google’s next-generation AI model” Retrieved from https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/
[4] Qwen Team. (2025). “Qwen2.5-Max: Exploring the Intelligence of Large-scale MoE Model” Retrieved from https://qwenlm.github.io/blog/qwen2.5-max/
[5] DeepSeek AI. (2024). “Introducing DeepSeek-V3” Retrieved from https://apidocs.deepseek.com/news/news1226
[6] DeepSeek AI. (2024). “DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence” Retrieved from https://github.com/deepseek-ai/DeepSeek-Coder-V2
[7] Meta AI. (2024). “Introducing Llama 3.1: Our most capable models to date.” Retrieved from https://ai.meta.com/blog/meta-llama-3-1/
[8] Meta AI. (2024). “Llama-2-7b” Retrieved from https://huggingface.co/meta-llama/Llama-2-7b
[9] Gemma Research Team. (2024). “Gemma 2 27B” Retrieved from https://huggingface.co/google/gemma-2-27b
[10] Mistral AI. (2023). “Mistral 7B: The best model to date, Apache 2.0.” Retrieved from https://mistral.ai/news/announcing-mistral-7b/
[11] Hendrycks, D., Burns, C., Basart, S., Zou, A., Mazeika, M., Song, D., & Steinhardt, J. (2020). Measuring massive multitask language understanding. arXiv preprint arXiv:2009.03300. https://arxiv.org/abs/2009.03300
[12] Srivastava, A., Rastogi, A., Rao, A., Shoeb, A. A. M., Abid, A., Fisch, A., … & Wang, G. (2022). Beyond the imitation game: Quantifying and extrapolating the capabilities of language models. arXiv preprint arXiv:2206.04615. https://arxiv.org/abs/2206.04615
[13] Shao, Z., Wang, P., Zhu, Q., Xu, R., Song, J., Zhang, M., … & Guo, D. (2024). Deepseekmath: Pushing the limits of mathematical reasoning in open language models. arXiv preprint arXiv:2402.03300.
[14] Liu, A., Feng, B., Wang, B., Wang, B., Liu, B., Zhao, C., … & Xu, Z. (2024). Deepseek-v2: A strong, economical, and efficient mixture-of-experts language model. arXiv preprint arXiv:2405.04434.
[15] Liu, A., Feng, B., Xue, B., Wang, B., Wu, B., Lu, C., … & Piao, Y. (2024). Deepseek-v3 technical report. arXiv preprint arXiv:2412.19437.
[16] Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., … & He, Y. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv preprint arXiv:2501.12948.
[17] Bai, J., Bai, S., Chu, Y., Cui, Z., Dang, K., Deng, X., … & Zhu, T. (2023). Qwen technical report. arXiv preprint arXiv:2309.16609.
[18] Yang, A., Yang, B., Zhang, B., Hui, B., Zheng, B., Yu, B., … & Qiu, Z. (2024). Qwen2.5 technical report. arXiv preprint arXiv:2412.15115.
[19] DeepSeek-V3 (2024) Introducing DeepSeek-V3. DeepSeek API Docs. https://apidocs.deepseek.com/news/news1226
[20] Hugging Face (2025). Hugging Face Web Site. https://huggingface.co/
[21] Olteanu, A. (2025). Qwen 2.5 Max: Features, DeepSeek V3 Comparison & More. http://Datacamp.com https://www.datacamp.com/blog/qwen-2-5-max
[22] Simple-evals (2025). http://Github.com OpenAI Simple-evals. https://github.com/openai/simpleevals?tab=readme-ov-file#benchmark-results
[23] White, C., Dooley, S., Roberts, M., Pal, A., Feuer, B., Jain, S., … & Goldblum, M. (2024). Livebench: A challenging, contamination-free LLM benchmark. arXiv preprint arXiv:2406.19314.
[24] DeepSeek-AI (2024). DeepSeek-V3 https://github.com/deepseek-ai/DeepSeek-V3
[25] Qwen Team (2025). Qwen2.5-Max: Exploring the Intelligence of Large-scale MoE Model. https://qwenlm.github.io/blog/qwen2.5-max/
[26] Gurney, M. (2024). Llama Model Details. https://github.com/metallama/llama/blob/main/MODEL_CARD.md
[27] Touvron, H., Martin, L., Stone, K., Albert, P., Almahairi, A., Babaei, Y., … & Scialom, T. (2023). Llama 2: Open foundation and fine-tuned chat models. arXiv preprint arXiv:2307.09288.
[28] Llama (2023). Llama 2: open source, free for research and commercial use. Meta. https://www.llama.com/llama2/
[29] Team, G., Riviere, M., Pathak, S., Sessa, P. G., Hardin, C., Bhupatiraju, S., … & Garg, S. (2024). Gemma 2: Improving open language models at a practical size. arXiv preprint arXiv:2408.00118.
[30] Jiang, A. Q., Sablayrolles, A., Mensch, A., Bamford, C., Chaplot, D. S., Casas, D. D. L., … & Sayed, W. E. (2023). Mistral 7B. arXiv preprint arXiv:2310.06825.
[31] Aydın, Ö., & Karaarslan, E. (2020, June). Covid-19 Belirtilerinin Tespiti İçin Dijital İkiz Tabanlı Bir Sağlık Bilgi Sistemi. Online International Conference of COVID-19 (CONCOVID).
[32] Coorey, G., Figtree, G. A., Fletcher, D. F., & Redfern, J. (2021). The health digital twin: advancing precision cardiovascular medicine. Nature Reviews Cardiology, 18(12), 803-804.
[33] Volkov, I., Radchenko, G., & Tchernykh, A. (2021). Digital twins, internet of things and mobile medicine: a review of current platforms to support smart healthcare. Programming and Computer Software, 47, 578-590.
[34] Shengli, W. (2021). Is human digital twin possible?. Computer Methods and Programs in Biomedicine Update, 1, 100014.
[35] Garg, H. 2020 Digital Twin Technology: Revolutionary to improve personalized healthcare Science Progress and Research
[36] Popa, E. O., van Hilten, M., Oosterkamp, E., & Bogaardt, M. J. (2021). The use of digital twins in healthcare: socio-ethical benefits and socio-ethical risks. Life sciences, society and policy, 17, 1-25.
[37] Elayan, H., Aloqaily, M., & Guizani, M. (2021). Digital twin for intelligent context-aware IoT healthcare systems. IEEE Internet of Things Journal, 8(23), 16749-16757.
[38] Gupta, D., Kayode, O., Bhatt, S., Gupta, M., & Tosun, A. S. (2021, December). Hierarchical federated learning based anomaly detection using digital twins for smart healthcare. In 2021 IEEE 7th international conference on collaboration and internet computing (CIC) (pp. 16-25). IEEE.
[39] Zheng, Y., Lu, R., Guan, Y., Zhang, S., & Shao, J. (2021, June). Towards private similarity query based healthcare monitoring over digital twin cloud platform. In 2021 IEEE/ACM 29th International Symposium on Quality of Service (IWQOS) (pp. 1-10). IEEE.
[40] Benson, M. (2021). Digital twins will revolutionise healthcare. Engineering & technology, 16(2), 50-53.
[41] Yang, D., Karimi, H. R., Kaynak, O., & Yin, S. (2021). Developments of digital twin technologies in industrial, smart city and healthcare sectors: A survey. Complex Engineering Systems, 1(1), N-A.
[42] EL Azzaoui, A., Kim, T. W., Loia, V., & Park, J. H. (2021). Blockchain-based secure digital twin framework for smart healthy city. In Advanced Multimedia and Ubiquitous Engineering: MUE-FutureTech 2020 (pp. 107-113). Springer Singapore.
[43] De Maeyer, C., & Markopoulos, P. (2021). Experts’ View on the Future Outlook on the Materialization, Expectations and Implementation of Digital Twins in Healthcare. Interacting with Computers, 33(4), 380-394.
[44] Angulo, C., Gonzalez-Abril, L., Raya, C., & Ortega, J. A. (2020, April). A proposal to evolving towards digital twins in healthcare. In International work-conference on bioinformatics and biomedical engineering (pp. 418-426). Cham: Springer International Publishing.
[45] Boată, A., Angelescu, R., & Dobrescu, R. (2021). Using digital twins in health care. UPB Scientific Bulletin, Series C: Electrical Engineering and Computer Science, 53-62.
[46] Madubuike, O. C., & Anumba, C. J. (2021). Digital twin application in healthcare facilities management. In Computing in Civil Engineering 2021 (pp. 366-373).
[47] Voigt, I., Inojosa, H., Dillenseger, A., Haase, R., Akgün, K., & Ziemssen, T. (2021). Digital twins for multiple sclerosis. Frontiers in immunology, 12, 669811.
[48] Kamel Boulos, M. N., & Zhang, P. (2021). Digital twins: from personalised medicine to precision public health. Journal of personalized medicine, 11(8), 745.
[49] Hussain, I., Hossain, M. A., & Park, S. J. (2021, December). A healthcare digital twin for diagnosis of stroke. In 2021 IEEE International conference on biomedical engineering, computer and information technology for health (BECITHCON) (pp. 18-21). IEEE.
[50] Thiong’o, G. M., & Rutka, J. T. (2022). Digital twin technology: The future of predicting neurological complications of pediatric cancers and their treatment. Frontiers in Oncology, 11, 781499.
[51] Alazab, M., Khan, L. U., Koppu, S., Ramu, S. P., Iyapparaja, M., Boobalan, P., … & Aljuhani, A. (2022). Digital twins for healthcare 4.0—Recent advances, architecture, and open challenges. IEEE Consumer Electronics Magazine, 12(6), 29-37.
[52] Yu, Z., Wang, K., Wan, Z., Xie, S., & Lv, Z. (2022). FMCPNN in digital twins smart healthcare. IEEE Consumer Electronics Magazine, 12(4), 66-73.
[53] Okegbile, S. D., Cai, J., Niyato, D., & Yi, C. (2022). Human digital twin for personalized healthcare: Vision, architecture and future directions. IEEE network, 37(2), 262-269.
[54] Subramanian, B., Kim, J., Maray, M., & Paul, A. (2022). Digital twin model: A real-time emotion recognition system for personalized healthcare. IEEE Access, 10, 81155-81165.
[55] Hassani, H., Huang, X., & MacFeely, S. (2022). Impactful digital twin in the healthcare revolution. Big Data and Cognitive Computing, 6(3), 83.
[56] Huang, P. H., Kim, K. H., & Schermer, M. (2022). Ethical issues of digital twins for personalized health care service: preliminary mapping study. Journal of Medical Internet Research, 24(1), e33081.
[57] Sahal, R., Alsamhi, S. H., & Brown, K. N. (2022). Personal digital twin: a close look into the present and a step towards the future of personalised healthcare industry. Sensors, 22(15), 5918.
[58] Wickramasinghe, N. (2022). The case for digital twins in healthcare. In Digital Disruption in Healthcare (pp. 59-65). Cham: Springer International Publishing.
[59] Akash, S. S., & Ferdous, M. S. (2022). A blockchain based system for healthcare digital twin. IEEE Access, 10, 50523-50547.
[60] Ferdousi, R., Laamarti, F., Hossain, M. A., Yang, C., & El Saddik, A. (2022). Digital twins for well-being: an overview. Digital Twin, 1, 7.
[61] Khan, A., Milne-Ives, M., Meinert, E., Iyawa, G. E., Jones, R. B., & Josephraj, A. N. (2022). A scoping review of digital twins in the context of the COVID-19 pandemic. Biomedical Engineering and Computational Biology, 13, 11795972221102115.
[62] Kleftakis, S., Mavrogiorgou, A., Mavrogiorgos, K., Kiourtis, A., & Kyriazis, D. (2022). Digital twin in healthcare through the eyes of the Vitruvian man. In Innovation in Medicine and Healthcare: Proceedings of 10th KES-InMed 2022 (pp. 75-85). Singapore: Springer Nature Singapore.
[63] Mulder, S. T., Omidvari, A. H., Rueten-Budde, A. J., Huang, P. H., Kim, K. H., Bais, B., … & Steegers-Theunissen, R. (2022). Dynamic digital twin: Diagnosis, treatment, prediction, and prevention of disease during the life course. Journal of Medical Internet Research, 24(9), e35675.
[64] Ramu, S. P., Boopalan, P., Pham, Q. V., Maddikunta, P. K. R., Huynh-The, T., Alazab, M., … & Gadekallu, T. R. (2022). Federated learning enabled digital twins for smart cities: Concepts, recent advances, and future directions. Sustainable Cities and Society, 79, 103663.
[65] Song, Y., & Li, Y. (2022, March). Digital twin aided healthcare facility management: a case study of Shanghai tongji hospital. In Construction Research Congress 2022 (pp. 1145-1155).
[66] Khan, S., Arslan, T., & Ratnarajah, T. (2022). Digital twin perspective of fourth industrial and healthcare revolution. Ieee Access, 10, 25732-25754.,
[67] Pesapane, F., Rotili, A., Penco, S., Nicosia, L., & Cassano, E. (2022). Digital twins in radiology. Journal of clinical medicine, 11(21), 6553.
[68] Ricci, A., Croatti, A., & Montagna, S. (2021). Pervasive and connected digital twins—a vision for digital health. IEEE Internet Computing, 26(5), 26-32.
[69] Sun, T., He, X., & Li, Z. (2023). Digital twin in healthcare: Recent updates and challenges. Digital Health, 9, 20552076221149651.
[70] Machado, T. M., & Berssaneti, F. T. (2023). Literature review of digital twin in healthcare. Heliyon, 9(9).
[71] Aydın, Ö., Karaarslan, E. (2022). OpenAI ChatGPT Generated Literature Review: Digital Twin in Healthcare. In Ö. Aydın (Ed.), Emerging Computer Technologies 2 (pp. 22-31). İzmir Akademi Dernegi.
[72] Aydın, Ö., & Karaarslan, E. (2023). Is ChatGPT leading generative AI? What is beyond expectations?. Academic Platform Journal of Engineering and Smart Systems, 11(3), 118-134.
[73] Dergaa, I., Chamari, K., Zmijewski, P., & Saad, H. B. (2023). From human writing to artificial intelligence generated text: examining the prospects and potential threats of ChatGPT in academic writing. Biology of sport, 40(2), 615-622.
[74] Bom, H. S. H. (2023). Exploring the opportunities and challenges of ChatGPT in academic writing: a roundtable discussion. Nuclear medicine and molecular imaging, 57(4), 165-167.,
[75] Mondal, H., & Mondal, S. (2023). ChatGPT in academic writing: Maximizing its benefits and minimizing the risks. Indian Journal of Ophthalmology, 71(12), 3600-3606.
[76] Lingard, L. (2023). Writing with ChatGPT: An illustration of its capacity, limitations & implications for academic writers. Perspectives on medical education, 12(1), 261.
[77] Jarrah, A. M., Wardat, Y., & Fidalgo, P. (2023). Using ChatGPT in academic writing is (not) a form of plagiarism: What does the literature say. Online Journal of Communication and Media Technologies, 13(4), e202346.
[78] Ariyaratne, S., Iyengar, K. P., & Botchu, R. (2023). Will collaborative publishing with ChatGPT drive academic writing in the future?. British Journal of Surgery, 110(9), 1213-1214.
[79] Gruda, D. (2024). Three ways ChatGPT helps me in my academic writing. Nature, 10.
[80] Zohery, M. (2023). ChatGPT in academic writing and publishing: A comprehensive guide. Artificial intelligence in academia, research and science: ChatGPT as a case study, 10-61.
[81] Zhao, W. X., Zhou, K., Li, J., Tang, T., Wang, X., Hou, Y., … & Wen, J. R. (2023). A survey of large language models. arXiv preprint arXiv:2303.18223.
[82] Minaee, S., Mikolov, T., Nikzad, N., Chenaghlu, M., Socher, R., Amatriain, X., & Gao, J. (2024). Large language models: A survey. arXiv preprint arXiv:2402.06196.
[83] Blevins, T., Gonen, H., & Zettlemoyer, L. (2022). Prompting language models for linguistic structure. arXiv preprint arXiv:2211.07830.
[84] Wei, C., Wang, Y. C., Wang, B., & Kuo, C. C. J. (2023). An overview on language models: Recent developments and outlook. arXiv preprint arXiv:2303.05759.
[85] Gao, C. A., Howard, F. M., Markov, N. S., Dyer, E. C., Ramesh, S., Luo, Y., & Pearson, A. T. (2023). Comparing scientific abstracts generated by ChatGPT to real abstracts with detectors and blinded human reviewers. NPJ Digital Medicine, 6(1), 75.
[86] Stokel-Walker, C. (2023). ChatGPT listed as author on research papers: many scientists disapprove. Nature, 613(7945), 620-621.
[87] Hu, G. (2024). Challenges for enforcing editorial policies on AI-generated papers. Accountability in Research, 31(7), 978-980.
[88] Elali, F. R., & Rachid, L. N. (2023). AI-generated research paper fabrication and plagiarism in the scientific community. Patterns, 4(3).
[89] Anderson, N., Belavy, D. L., Perle, S. M., Hendricks, S., Hespanhol, L., Verhagen, E., & Memon, A. R. (2023). AI did not write this manuscript, or did it? Can we trick the AI text detector into generated texts? The potential future of ChatGPT and AI in Sports & Exercise Medicine manuscript generation. BMJ open sport & exercise medicine, 9(1), e001568.
[90] Springer (2025). Artificial Intelligence (AI). Springer Editorial Policies. https://www.springer.com/gp/editorial-policies/artificial-intelligence--ai-/25428500
[91] Kaebnick, G. E., Magnus, D. C., Kao, A., Hosseini, M., Resnik, D., Dubljević, V., … & Cherry, M. J. (2023). Editors’ statement on the responsible use of generative AI technologies in scholarly journal publishing. Medicine, Health Care and Philosophy, 26(4), 499-503.
[92] Taylor & Francis (2025). AI Policy. Taylor & Francis Policies. https://taylorandfrancis.com/our-policies/ai-policy/
[93] Elsevier (2025). Generative AI policies for journals. Elsevier Policies.https://www.elsevier.com/about/policies-and-standards/generative-ai-policies-for-journals
[94] American Psychological Association (2023). APA Journals policy on generative AI: Additional guidance. APA Journals Publishing Resource Center https://www.apa.org/pubs/journals/resources/publishing-tips/policy-generative-ai
[95] Natura Portfolio(2025). Artificial Intelligence (AI). Editorial Policies. https://www.nature.com/nature-portfolio/editorial-policies/ai
[96] Sage (2025). Artificial Intelligence Policy. Sage Editorial Policies. https://us.sagepub.com/enus/nam/artificial-intelligence-policy
[97] Misra, D. P. (2022). A Practical Guide for Plagiarism Detection Through the Coordinated Use of Software and (Human) Hardware. Journal of Gastrointestinal Infections, 12(01), 047-050.
[98] Misra, D. P., & Ravindran, V. (2021). Detecting and handling suspected plagiarism in submitted manuscripts. Journal of the Royal College of Physicians of Edinburgh, 51(2), 115-117.
[99] Jacob, S. (2024) How Much Plagiarism Is Allowed? Originality.ai https://originality.ai/blog/how-much-plagiarism-is-allowed
[100] Palmisano, T., Convertini, V. N., Sarcinella, L., Gabriele, L., & Bonifazi, M. (2021). Notarization and anti-plagiarism: A new blockchain approach. Applied sciences, 12(1), 243.
[101] Paperpal Help Center (2024). How do I interpret the similarity score? https://support.paperpal.com/support/solutions/articles/3000124505-how-do-i-interpret-thesimilarity-score-
[102] Grammarly (2020). How to Use Readability Scores in Your Writing. Grammarly Spotlight. https://www.grammarly.com/blog/product/readability-scores/
[103] WebFX (2025) What is Flesch-Kincaid readability? https://www.webfx.com/tools/readable/flesch-kincaid/
参考 Paper:https://arxiv.org/pdf/2503.0476