【第十三届“泰迪杯”数据挖掘挑战赛】【2025泰迪杯】【思路篇】A题解题全流程（持续更新）

葡萄成熟时_

已于 2025-04-14 19:53:57 修改

阅读量3k

点赞数 12

分类专栏：深度学习数据挖掘文章标签：数据挖掘人工智能 python 蓝桥杯

于 2025-03-25 18:12:41 首次发布

本文链接：https://blog.csdn.net/shine_Lee_/article/details/146509238

版权

深度学习同时被 2 个专栏收录

19 篇文章

订阅专栏

数据挖掘

19 篇文章

订阅专栏

写在前面：

1、A题、C题将会持续更新，陆续更新发布文章

2、全家桶依旧包含：


- 代码、
- 数据集、
- 模型、
- 论文、
- 教学视频、
- 服务器镜像分享（无需搭建环境和下载模型）、
- 售后服务
- 赠品成品系统（基于大模型pdf提取系统）可用做毕设

获取链接

请移步CSDN社区

CSDN社区获取

一、解题思路

实现技术: RapidLayout+Qwen2.5VL-7B+OCR+clip+Qwen2.5-7B-chat

总体思路概述：

问题一：版面分析对pdf每一页进行布局分析，结合ocr、多模态大模型进行内容信息提取，处理细节解决问题。保存正文内容、图片、公式入库储存用于后续任务。
问题二：本地构建部署Qwen2.5-7B-chat进行调用，对保存的正文内容与赛题要求进行大模型分析，微调模型输出参数，降低模型幻觉，增加消息队列防止同一问题，输出回答错乱。
问题三：根据问题一入库保存的图片、公式，进行clip构建图像侧特征矩阵，根据特征相似度进行重复率判断。以及pdf属性为文本的论文文本内容，进行构建文本侧特征矩阵。进行相似度匹配查重。
问题四：对于图片占比过高的论文pdf，结合版面分析+ocr，对pdf全提取，提取全文本，对文本特征进行相似度匹配，作为权重1；再将所以pdf页面作为图片，构建图像侧特征矩阵，做相似度匹配，作为权重2。最终根据权重综合得出该类论文的重复率。

二、版面分析结果：

在这里插入图片描述

输出数据结构

json

样例：

{
  "参赛队号": "T001",
  "论文标题": "基于深度学习的文档分析研究",
  "总页数": 12,
  "总字数": 8500,
  "摘要": {"页数": 1, "字数": 300},
  "正文": {
    "页数": 8,
    "字数": 6500,
    "图片数": 6,
    "图片比例": 0.15,
    "表格数": 3,
    "公式数": 12
  },
  "段落统计": {
    "数量": 45,
    "平均句子": 3.2,
    "平均字数": 144
  },
  "参考文献": {"数量": 28},
  "附录": {"页数": 2, "代码行数": 150}
}

在这里插入图片描述