Python实现PDF、doc、docx、xls、xlsx文件文本替换(保留原格式)

需求:

替换pdf文件中的指定内容

解决思路:

doc、docx、pdf、xls等文件都是以二进制形式保存,不能直接通过read('r')读取文件原始内容,需要转换为html文件,html文件可以通过read('r')获取文本内容,在进行文本替换。

替换doc、docx文件指定内容:

  • 可以利用win32com库直接进行替换(只适用于win系统)
  • 或者转为html格式处理

替换xls文件指定内容:

 

问题汇总:

  • 利用libreoffice将doc、docx直接转为html,可能出现格式错乱问题,可先转为pdf,pdf再转为html
  • xls文档内容过宽时,直接转html或者先转pdf都会出现排版错乱,此问题尚未解决。那种方式影响小先用哪种吧

 

格式转换工具参考https://blog.csdn.net/bocai_xiaodaidai/article/details/99676635

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
现在越来越多的办公文件是用PDF格式保存的,因为PDF格式在设计上内容不容易被修改。所以办公一族可能会因为需要替换或更换PDF文件内容中的个别文字而感到非常麻烦,尤其是当你需要在许多个PDF中大量替换一个重复的文字或者词语的时候。 PDF批量替换文字器是一款Windows平台下的PDF文字查找替换软件工具。通过这款软件,您可以方便的大批量的将PDF文件中指定的一个词,短语或者句子替换成您想要文字,甚至可以更换替换后文字的字体和文字修饰比如加粗、斜体、下划线和删除线等等。除了中文、英文之外,它还支持几乎所有国家的语言文字如德语、法语、日文、阿拉伯文等等。并且当你只需要替换个别几个PDF页中的文字时,它也有选定页面范围功能,可以方便的只替换个别页面。 支持的语言界面:简体中文,繁体中文,英语,法语,德语,阿拉伯语,捷克语,丹麦语,希腊语,西班牙语,芬兰语,匈牙利语,意大利语,日语,韩语,荷兰语,波兰语,葡萄牙语等。 PDF批量替换文字器可以用在哪些方面呢? 批量替换PDF中的敏感词: 如果你的PDF文档中含有敏感词并且不想让阅读者看到,您可以用PDF批量替换文字器将这个词替换成*号或者空格。 批量替换PDF中的人名或者品牌名: 比如你需要替换所有PDF文件中的一个人名或者品牌名,你只需要在"查找文字"栏中输入这个名字,然后在"替换为"栏里输入新的名字就可以了。 批量更改PDF内容中的日期和时间: PDF批量替换文字器还可以让您很方便的更新PDF文件中的日期和时间。在"查找文字"栏输入旧的日期和时间(当然要和PDF文件中的日期和时间文字一致),然后在"替换为"栏中输入最新的日期和时间就可以了。 批量删除一个词或者一个句子: 在"查找文字"栏中输入一个词或者句子,然后在"替换为"栏里留空就可以直接抹掉这个词或者句子了。 批量替换多个文字或者删除多个文字: 在"查找文字"栏中输入多个需要替换的文字,然后在"替换为"栏里输入您想替换的文字就可以替换了,留空就可以直接删除掉多个文字。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值