需求:
替换pdf文件中的指定内容
解决思路:
doc、docx、pdf、xls等文件都是以二进制形式保存,不能直接通过read('r')读取文件原始内容,需要转换为html文件,html文件可以通过read('r')获取文本内容,在进行文本替换。
替换doc、docx文件指定内容:
- 可以利用win32com库直接进行替换(只适用于win系统)
- 或者转为html格式处理
替换xls文件指定内容:
- 转为html格式处理
- 使用xlrd、xlutils两个库,参考https://blog.csdn.net/bocai_xiaodaidai/article/details/100007852
问题汇总:
- 利用libreoffice将doc、docx直接转为html,可能出现格式错乱问题,可先转为pdf,pdf再转为html
- xls文档内容过宽时,直接转html或者先转pdf都会出现排版错乱,此问题尚未解决。那种方式影响小先用哪种吧
格式转换工具参考:https://blog.csdn.net/bocai_xiaodaidai/article/details/99676635