【C题解题思路】2023年第九届数维杯国际大学生数学建模挑战赛

每周学习96小时

已于 2023-11-16 19:32:20 修改

阅读量488

点赞数 2

文章标签：数学建模

于 2023-11-16 17:34:09 首次发布

本文链接：https://blog.csdn.net/qq_42710492/article/details/134447165

版权

c问题C:人工智能生成文本的智能识别与检测

近年来，随着信息技术的飞速发展，人工智能的各种应用层出不穷。典型的应用包括机器人导航、语音识别、图像识别、自然语言处理和智能推荐等。在这些应用中，以ChatGPT为代表的大型语言模型(large language models, llm)在全球范围内得到了广泛的推广和使用。同时，我们充分认识到这些模型给人们带来的丰富、智能和便捷的体验。同样重要的是要意识到与AI文本生成等工具相关的许多风险。

首先，这些大型语言模型是基于文本进行训练的。不同类型的语言和不同领域的文化背景会对生成的结果产生重大影响。其次，基于数据的人工智能生成的结果可能存在语义偏差，缺乏逻辑一致性，缺乏创造力。最后，隐私保护、版权保护以及学生使用人工智能生成论文所导致的相关学术不端行为的定义等问题，对本科生和研究生的教学和培训过程构成了重大的困难和挑战。为了防止人工智能生成文本的滥用，保证生成内容的质量，并讨论如何解决人工智能生成论文所带来的问题，有必要根据主题要求，识别和检测人工智能生成文本的模式，包括字段、模型、图像和公式。

判断文本是否为人工智能生成，除了考虑满足字数要求、生成次数、是否为汉英翻译等因素外。同样值得注意的是，人工智能目前缺乏人类的情感和判断。这可能会导致文本生成中的现象或风格，例如“更多的短语缺乏示例，缺乏情感，结构，例如单个”。

请用数学建模解决以下四个问题:

问题一: 请根据附录1提供的Web of Science上20个博客的链接，使用AI重写文章的部分内容。并寻找人工智能文本生成的基本规律，可以从人工智能生成的字数(如200字、500字等)、生成的次数(第一次生成后点击“再生”按钮)、是否是中文和英文的翻译、生成文本的风格等要求进行统计推断。

解题步骤：

（1）建立数据集：从文章中，可以根据题目和关键字对每个文章的摘要进行重写，构建数据集。

Ps：分别生成1、2、3、4、5次，中翻英、英翻中、限制次数

可用chatgpt生成“假如您是一位图书馆学领域的知名学者,我请您协助我撰写一篇中文学术论文的摘要,我将提供一个学术论文题目和关键字,希望您根据这些题目为我撰写相应的论文摘要。第一个论文题目是:XXX。””

（2）从长度、句子数量、词汇特征、常用搭配等维度对文本进行对比分析和可视化。

采用高频词统计法、N-gram、共词分析法等文本分析与挖掘方法。用均值方差图表示：