25泰迪杯A题44页完整版论文+可视化图表+可执行代码

完整资料获取在文章末尾!!!

摘要

近年来,面向在校大学生各类型的学科竞赛层出不穷,竞赛规模也越来越大,很多竞赛

都将研究论文作为最终参赛作品。随着参赛队数的不断增加,竞赛论文的评阅工作量随之增

大。利用计算机和 AI 技术对竞赛论文进行筛选,可有效地减少评阅工作量、提高评阅效率 和质量。该问题的研究具有一定的现实意义和实用价值。 通常竞赛论文的评阅过程分为两个阶段: (1) 从所有竞赛论文中筛选出不符合竞赛规则、没有实质内容的论文,不进入下一阶段 的评阅; (2) 对初步筛选后的论文进行人工评阅。

本文针对竞赛论文的初步筛选的四个问题分别提出了如下解决方法:

针对问题一,采用Qwen2.5VL视觉大模型图片理解和PDF处理库PyMuPDF进行构建PDF信息提取流程,并且对PDF的版面分析构建了YOLOv10的版面分析模型,通过标注制作1000张PDF页面的标题、文本、图片、图片标题.......等属性区域,在公开数据集上的基础上的预训练权重微调,提升对竞赛论文的精准布局检测分析;最后通过系统构建代码,开发同时处理5个PDF的多线程处理代码,对问题一所需的各种信息提取精准,每篇PDF提取准确率89%,完整性达到90%(基于20篇论文人工统计对比得出数据);并且由于资源受限,更换更大量级的视觉大模型,将会更准确。

针对问题二,根据附件一的参赛队员信息表,构建队员信息库,以参赛队号与加密号为基础,对其他信息包括队号,作为关键词进行全文搜索。采用了三种思路进行处理,思路一:对每篇的前3页(包括封面、摘要)进行文本识别匹配关键词查看是否包含参赛信息;思路二:根据问题一保存的正文内容文本,进行调用DeepSeek大模型进行文本分析,设置详细严格的提示词,对每篇文本进行概括、关键词提取等,并根据赛题要求的总结,判断分析是否与赛题无关;思路三:根据文本内容调用文本大语言模型LLM进行长文本总结分析,设置提示词,对其进行是否无实质内容判断;最终汇总结果于result2。

针对问题三,定义文本重复率的计算方式,构建本竞赛论文文本库,通过N-gram算法对文本进行句子、文字匹配,计算出重复字数、句子数、重复率等。对于问题一处理过程中保存的图片、公式进行Clip多模态模型导出图像特征,通过KNN匹配特征,得到图片与公式的雷同。

针对问题四,通过对问题一的处理方法改进,改用OCR文本提取论文内容,构建了版面分析和OCR进行提取论文检测为标题、文本的区域的文字,并且首先对版面分析的结果BOXX进行重排序,确保文本提取的顺序为论文的从上至下,保证文本提取准确全面再经过问题三的文本重复率计算得出结果存入result4。

关键词:Qwen2.5VL,DeepSeek,版面分析,OCR,N-gram

  1. 问题重述

1.1 问题背景

近年来,学术竞赛规模持续扩大,组委会面临海量论文的智能化评审挑战。传统人工初审存在效率瓶颈,尤其在跨模态论文(含公式、图表、代码等多元内容)处理中,版面结构复杂性与文本识别误差显著影响评审质量。如何通过AI技术实现论文格式合规性审查、学术不端检测及核心创新点挖掘,成为提升竞赛公平性与评审效率的关键。

当前主流方法主要依赖基础OCR技术进行文字提取,但面对数学公式排版、多栏混排等复杂版面时,常出现段落顺序错乱、图文分离失效等问题。基于规则匹配的格式审查方法难以适应不同竞赛的差异化模板要求,而传统N-gram语言模型在跨页语义连贯性分析、学术术语特征捕捉等方面存在局限性。此外,现有系统对代码流程图、实验结果对比图等非文本元素的语义理解能力不足,导致创新性评估维度单一。

如今,多模态大模型技术为上述问题提供新思路。Qwen2.5VL通过视觉-语言联合建模,可精准解析论文中的图表关联性及跨页内容拓扑结构;DeepSeek框架的层次化特征提取能力,则能有效处理公式符号识别、代码片段语法解析等高阶任务。研究显示,融合版面分析算法与动态N-gram权重调整机制,可使文本重复检测准确率提升17.6%(参见CVPR 2023相关研究)。然而,现有技术尚未形成完整的评审闭环系统,在学术伦理审查、创新度量化评估等环节仍需突破性算法支撑。构建融合多模态理解、动态规则引擎与学术知识图谱的智能评审体系,已成为学术竞赛数字化转型的迫切需求。

1.2 问题重述

本赛题的主要任务是建立竞赛论文初步筛选的数学模型,设计相应的算法,完成论文的 自动筛选工作。所有问题的处理过程须通过编程实现。

问题 1 对竞赛论文(附件 3)的基本信息进行统计,将结果保存到文件result1.xlsx 中 (文件模板见附件 4 中的 result1.xlsx,其中图片是指 PDF 中属性为图片的对象)。

注  对需要统计的各项内容须给出具体的定义和计算方法,或者明确给出所使用的工具 和调用的函数。

问题 2 从所有竞赛论文中,筛选出包含参赛队信息的论文(参赛队信息见附件 1); 通过提取特征,分析判断正文内容是否与附件2 中赛题无关;根据附件 2 中赛题的要求,识 别出无实质内容的论文。将所有竞赛论文的判断结果保存到文件 result2.xlsx 中(文件模板 见附件 4 中的 result2.xlsx,其中 B ,C ,D 列填 0 或 1 :0 表示“否”,1 表示“是”)。筛 选出结果文件result2.xlsx 中 B ,C ,D 三列至少有一个为 1 的竞赛论文,在正文中列出筛选 结果中参赛队号最小的前 5 篇竞赛论文信息(格式见附件4 中的 result2.xlsx)。

问题 3 定义并计算竞赛论文的重复率,将结果保存到文件 result3.xlsx 的相应工作表中。分析判断每篇竞赛论文中的图片、公式是否与其他论文中的图片、公式雷同,将雷同图 片、公式所在页码及页内序号分别保存到文件 result3.xlsx  的相应工作表中(文件模板见附 件 4 中的 result3.xlsx,其中页码指 PDF 文件的页码,可能与论文的页码不一致)。

问题 4  附件 3 中某些竞赛论文的图片占比过高,无法使用常规方法实现相似性检测。 请针对这类竞赛论文给出相似性检测的模型或算法,并重新计算附件 3  中所有竞赛论文的 重复率,将结果保存到 result4.xlsx 文件中(文件模板见附件4 中的 result4.xlsx)。

  1. 问题分析
    1. 对于问题一分析

问题一主要拆分为八大模块问题,分别进行构建提取方法,部署实现视觉大模型以及其他相关python库进行封装方法。

其一,通过本地实现运行通义千问Qwen2.5VL-7B大模型,进行对每篇PDF前三页内容进行视觉理解分析,提取出其有且仅有一个的论文标题;其中可能会出现比赛名称“2019年第七届“泰迪杯”数据挖掘挑战赛”、“第七届“泰迪杯”数据挖掘挑战赛”、““泰迪杯”数据挖掘挑战赛”等,设置优先级,再没有其他标题的情况下,才能作为本篇论文的标题。

其二,对于论文的总页数、总字数的提取,利用python处理PDF库进行直接提取,这里需要考虑到对于有的PDF文件存在其属性为文字的内容与实际文字内容不全的情况,即会有论文文本截图作为图片插入pdf中,为保证提取信息合理性,暂不做处理,在问题四时会进行针对性处理。

其三,对于论文的摘要处理,考虑到论文可能存在一页至一页半的摘要,所以通过对前5页进行分析,利用大模型和标题,进行确定摘要的范围区间,利用视觉大模型提取该区间的摘要文本,进行统计其页数与字数。

其四,针对目录,依然考虑其存在一页目录至两页目录的情况,通过划定文段标题

的区间,例如目录之后是正文,目录之前段落标题是摘要,再利用视觉大模型进行判断其是否为目录,确保结果准确,统计其页数。

其五,针对参考文献的数量统计,可利用大模型直接分析统计,但首先需要明确其参考文献的页面数量。

其六,对于附录的页数与代码行数,利用大模型加以严格的提示词,进行分析其每一页附录是否具有代码,代码行数,并且加和计算代码行数。

其七,对于正文部分的信息统计,包括页数、字数、图片数、图片所占比例、表格数、独立公式数。需首先根据以上六模块的处理结果,进行统计分析其正文的页面下标区间,再

对每一页正文页面进行版面分析,得到其图片数量、表格数量、独立公式数量,这都归于版面分析的YOLOv10训练的版面检测模型;最后通过PDF属性为文字,进行获取每一页的正

文文本。与此同时,我们巧妙的利用tsv和jsonl文件分别对图片、公式进行截取并转为图

片Base64编码存储,将正文以加密号,也就是PDF文件名称作为json的键,以其正文内容文本作为值,构建正文文本数据库,为后续问题解决做铺垫。

其八,对于正文段落的数量、平均句子数、平均字数的统计,需要结合版面分析统计出段落数、以整页的文本提取,配合正则匹配,划分句子,统计其句子数量,最后文本除以段落数得到平均字数。

    1. 对于问题二分析

问题二需要从所有竞赛论文中,筛选出包含参赛队伍信息的论文,通过从附件1读取队伍信息作为关键词列表,其队伍号一般出现在封面或开头,所以以论文PDF前3页作为重点查询页面,通过视觉大模型分析其页面是否包含该关键词列表里内容,再读取正文数据库对该论文的正文进行正则匹配查询;而对于正文内容是否与附件2的赛题无关,则需要对赛题进行任务概括、关键词提取,再通过文本大模型结合正文内容进行关键词、任务概括匹配;

对于是否具有实质性内容的论文判断,则需要设定具体的关键词,以及对正文的高度概括理解,设置严格详细的关键词,通过大模型进行判断,并且对大模型输出结果进行后处理。

    1. 对于问题三分析

问题三需要定义并且计算竞赛论文的重复率,判断每篇竞赛论文的图片、公式是否与其他论文雷同。对于此首先通过查询相关资料,这里对于重复率的定义更偏向于论文的查重任务,首先需要建立该所有的竞赛论文作为论文学术库,再定义其重复率计算公式为:其论文重复率 = 论文中抄袭字数/论文中总字数。而对于图片和公式的雷同,则需要通过CLIP模态网络模型,对图片进行特征导出,分别读取问题一保存的图片与公式的TSV文件,其每一个图片或公式都是以其文件名-页码-页内序号作为键值,方便结果的汇总处理,定义当特征相似度计算得分达到0.95以上,则判断该图片或公式与所查询的图片或公式雷同,通过分割键值,得到其页码和页内序号。

    1. 对于问题四分析

问题四需要对图片占比过高的情况,无法常规方法实现相似性检测。考虑到其可能存在文本贴图方式,使PDF属性为图片实际是文本内容,而真正为图片的内容,通过版面分析模型也已识别出,所以这里的图片占比过高,我们认为是需要通过OCR提取图片的文本,再进行正文文本库的重复率计算。

  1. 解题假设与约定

一、基本假设

1.数据真实性假设

假设参赛者提交的所有论文数据(包括实验数据、参考文献及附件材料)均真实可靠,不存在学术造假、虚构或恶意篡改行为,初步筛选阶段不对此类问题进行专项核查。

2.评审标准稳定性假设

假设论文评审的核心标准(如创新性、逻辑性、规范性等)在筛选过程中保持稳定,不会因评审阶段或外部环境变化而调整权重或定义。

3.外部因素无干扰假设

假设论文质量仅受其自身内容与竞赛主题相关性影响,初步筛选阶段不考虑社会舆论、参赛者背景、赞助方倾向等外部非学术因素的干扰。

4.技术条件一致性假设

假设所有评审成员使用的技术工具(如查重系统、评分软件)运行稳定,且筛选期间未出现系统故障或版本更新导致的评分偏差。

二、筛选流程约定

1.时间约束约定

约定初步筛选需在固定周期内完成(如7个自然日),逾期未完成评审的论文默认进入下一轮筛选,以确保流程公平性。

2.分工与责任约定

评审小组成员按学科领域分组,每组至少包含2名独立评审员,避免单一主观判断影响结果;若同一论文的评分差异超过阈值(如20分制下分差≥5分),需启动争议复核机制。

3.优先级处理约定

对符合以下条件的论文予以优先筛选:

格式完全符合竞赛要求(如字数、排版、附件完整);

研究主题与竞赛年度关键词高度相关;

这里呢!!!!!!!!!!!!!!

25泰迪杯A题44页完整版论文+可视化图表+可执行代码https://www.jdmm.cc/file/2711950/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值