文章平均质量分 53
飞锡2024
算法工程师,paddle/cv girl
展开
-
图像转pdf (python)
img2pdf包:https://github.com/josch/img2pdfpip install img2pdfimg2pdf是一个用于将光栅图像无损转换为PDF格式的工具包。使用img2pdf时,优先事项按顺序应为:始终无损:嵌入PDF中的图像将始终具有与输入的每个像素相同的颜色信息;文件较小:如果可能的话,输入图像和输出PDF之间的文件大小差异将仅为PDF容器本身的开销。先创建一个文件夹保存压缩后的图片图片转pdfimport osimport img2pdffrom PIL i原创 2024-03-19 11:47:24 · 374 阅读 · 0 评论 -
fitz 提取pdf表格
fitz实现 pdf剪裁原创 2024-03-07 17:13:41 · 110 阅读 · 0 评论 -
pdf转图片(利用pdf2image包)
pdf转图片(利用pdf2image包)原创 2024-03-12 17:51:56 · 293 阅读 · 0 评论 -
camelot pdf提取表格实践(记录)
camelot方法有两种解析模式:流解析(stream)、格子解析(lattice),其中格子解析能够保留表格完整的样式,对于复杂表格来说要优于流解析模式。同时,camelot方法默认格子解析(lattice),而采用这种解析方式,需要安装ghostscript。ModuleNotFoundError: No module named ‘Workbook’ xlwt,是版本太低,升级版本即可。效果会更好,但是也有少部分数据可能错行。识别效果:不太理想,文本排序有问题。下载ghostscript。原创 2024-03-15 19:14:21 · 439 阅读 · 0 评论 -
pdfplumber识别表格
使用pdfplumber包转换excel,注意转换后pdf的换号符会保留。import pdfplumberfrom openpyxl import Workbookfrom tqdm import tqdmdata_folder = './pdf/'# file_name = data_folder+'医保药品分类与代码数据库更新202110.pdf'file_name = data_folder+'**.pdf'data_name = data_folder+'**.csv'def a原创 2022-05-26 13:31:09 · 4816 阅读 · 2 评论