【复盘】大批数据清洗前如何进行数据认知

海绵波波107

于 2025-03-24 20:28:10 发布

阅读量837

点赞数 25

分类专栏： # PDF解析文章标签：数据挖掘人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43920838/article/details/146484740

版权

PDF解析专栏收录该内容

13 篇文章

订阅专栏

目录

一、数据样本抽样与观察
二、数据质量评估
三、元数据与结构分析
四、异常检测与分类

在批量数据处理前先对数据有一些基本的了解，再去动手处理，会提高效率，而且能够避免一些踩坑带来的时间成本。下面说一些数据认知的方法。

一、数据样本抽样与观察

目标：快速了解数据的整体特征、格式差异和潜在问题。
实例操作：

随机抽取50-100份PDF样本（覆盖不同来源、年份、类型）。

观察内容：

文件结构：单栏/多栏、有无表格、数学公式、代码块等。

文字类型：印刷体/手写体、中英文混合、特殊符号（如公式 $E=mc^2$ ）。

版面问题：倾斜、水印、扫描模糊、页眉页脚干扰。

非文本内容：图片、图表、印章等是否需要保留。

输出：记录样本中的常见模式和异常情况（如10%的PDF是扫描件，5%包含复杂表格）。

查看文件的类型、内容，重点观察是否含有脏数据（超大文件、与整体风格不一致的文件），标准化的数据倒是不用管，因为80%的精力都是在处理脏数据上。

二、数据质量评估

目标：量化数据的可处理性和潜在挑战。
实例操作：

OCR可读性测试：

用工具（如pdftotext或Python库PyMuPDF）提取文本，检查提取完整度。

统计无法识别的页面比例（例如：“20%的页面因低分辨率需额外预处理”）。

语言分布统计：

用正则表达式或语言检测库（如langdetect）统计中英文比例。

例：“80%中文+20%英文混合，需配置多语言OCR模型”。

输出：数据质量报告（如“30%文件需图像增强，10%需手动校正”）。
先用一些简单的工具转换一下PDF，查看效果。先从0到1，再进行批量处理。在这一步注意要评估一下潜在的风险。

三、元数据与结构分析

目标：挖掘文件的隐藏结构和上下文信息。
实例操作：

提取元数据：

使用pdfinfo（Poppler工具）或Python库获取作者、创建时间、关键词等。

例：“发现50%的PDF无标题元数据，需从内容中提取标题”。

章节结构分析：

用正则表达式匹配“# 第一章”、“1.1”等Markdown标题标记。

例：“60%文件使用‘##’二级标题，可自动化分级”。

输出：元数据统计表、标题层级分布图。
查看文件的路径名称是否统一、完整，是否包含非法字符。

四、异常检测与分类

目标：识别需特殊处理的异常文件。
实例操作：

自动分类：

写脚本按文件特征分类（如扫描件、纯文本PDF、加密文件）。

例：“检测到15份加密PDF，需手动解密”。

异常检测：

用文件大小、页数、像素密度等指标过滤异常（如<10KB的空白文件）。

例：“5份文件页数>100，需单独拆分处理”。

输出：异常文件列表及处理建议。
查看文件的页数，是否含有超大页数内容、空白文件这种。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

海绵波波107 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。