【复盘】大批数据清洗前如何进行数据认知


在批量数据处理前先对数据有一些基本的了解,再去动手处理,会提高效率,而且能够避免一些踩坑带来的时间成本。下面说一些数据认知的方法。

一、数据样本抽样与观察


目标:快速了解数据的整体特征、格式差异和潜在问题。
实例操作:

随机抽取50-100份PDF样本(覆盖不同来源、年份、类型)。

观察内容:

文件结构:单栏/多栏、有无表格、数学公式、代码块等。

文字类型:印刷体/手写体、中英文混合、特殊符号(如公式 E = m c 2 E=mc^2 E=mc2)。

版面问题:倾斜、水印、扫描模糊、页眉页脚干扰。

非文本内容:图片、图表、印章等是否需要保留。

输出:记录样本中的常见模式和异常情况(如10%的PDF是扫描件,5%包含复杂表格)。

查看文件的类型、内容,重点观察是否含有脏数据(超大文件、与整体风格不一致的文件),标准化的数据倒是不用管,因为80%的精力都是在处理脏数据上。

二、数据质量评估


目标:量化数据的可处理性和潜在挑战。
实例操作:

OCR可读性测试:

用工具(如pdftotext或Python库PyMuPDF)提取文本,检查提取完整度。

统计无法识别的页面比例(例如:“20%的页面因低分辨率需额外预处理”)。

语言分布统计:

用正则表达式或语言检测库(如langdetect)统计中英文比例。

例:“80%中文+20%英文混合,需配置多语言OCR模型”。

输出:数据质量报告(如“30%文件需图像增强,10%需手动校正”)。
先用一些简单的工具转换一下PDF,查看效果。先从0到1,再进行批量处理。在这一步注意要评估一下潜在的风险。

三、元数据与结构分析


目标:挖掘文件的隐藏结构和上下文信息。
实例操作:

提取元数据:

使用pdfinfo(Poppler工具)或Python库获取作者、创建时间、关键词等。

例:“发现50%的PDF无标题元数据,需从内容中提取标题”。

章节结构分析:

用正则表达式匹配“# 第一章”、“1.1”等Markdown标题标记。

例:“60%文件使用‘##’二级标题,可自动化分级”。

输出:元数据统计表、标题层级分布图。
查看文件的路径名称是否统一、完整,是否包含非法字符。

四、异常检测与分类


目标:识别需特殊处理的异常文件。
实例操作:

自动分类:

写脚本按文件特征分类(如扫描件、纯文本PDF、加密文件)。

例:“检测到15份加密PDF,需手动解密”。

异常检测:

用文件大小、页数、像素密度等指标过滤异常(如<10KB的空白文件)。

例:“5份文件页数>100,需单独拆分处理”。

输出:异常文件列表及处理建议。
查看文件的页数,是否含有超大页数内容、空白文件这种。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

海绵波波107

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值