提取PDF表格数据

最新推荐文章于 2024-05-27 15:49:44 发布

素馨星

最新推荐文章于 2024-05-27 15:49:44 发布

阅读量793

点赞数

文章标签： python

本文链接：https://blog.csdn.net/qq_44735382/article/details/105952684

版权

本文介绍了如何利用Python的camelot库来提取基于文本的PDF表格数据。camelot提供了read_pdf函数读取PDF，以及plot函数用于绘制表格轮廓，通过不同参数如text、grid等展示表格信息。通过定位表格的左上角和右下角坐标，可以精确或模糊定义表格区域。在导出CSV时，若因中文导致乱码，需指定utf_8_sig编码。

摘要由CSDN通过智能技术生成

利用python 中的camelot库可以提取基于文本的PDF表格数据，（注意扫描版的则不能，基于文本的是指可以在该PDF文档上选取文本，而扫描版的PDF为图像格式）
关键词read_pdf 可以读取PDF文件
plot(tables[0],kind=‘text’)
关键词plot可以绘制表格轮廓，其中kind参数可以定义为
1.text 可显示所有文本，在图片上移动可以记录每个文本的坐标
2.grid 绘制表格轮廓
3.line绘制表格内部的线
4.joint 绘制表格线相交点
5.contour 绘制表格边界
6.textedge 绘制文本边缘

利用上述参数可以找到表格的左上角和右下角坐标，
添加表格区域重新读取PDF表格，添加关键词table_areas可以精确定义表格区域，其中参数为（左上角，右下角）坐标；添加关键词table_regions可以模糊定义表格区域

将结果导出成csv时，可能是因为ie结果中有中文，用excel打开出现乱码，此时需指定编码格式utf_8_sig
官方camelot使用文档: https://camelot-py.readthedocs.io/en/master/
.