docx
FogXcG
这个作者很懒,什么都没留下…
展开
-
快速读取MS word doc/docx文字 doc2txt docx2txt
此方法适用在追求速度的doc2txt,会丢失格式化信息,复杂doc可能会出错使用antiword库,linux安装antiword库:apt install antiword文档转换:antiword xxx.doc > xxx.txt...原创 2019-11-22 14:14:22 · 1019 阅读 · 0 评论 -
Linux读取pdf,pdf转txt
说明在linux上快速读取pdf,打印pdf内容,将pdf转换为txt工具:pdftotext安装apt install pdftotext使用将pdf转成txtpdftotext -enc UTF-8 XXX.pdf XXX.txt将pdf内容打印出来pdftotext -enc UTF-8 XXX.pdf -...原创 2019-11-22 14:24:56 · 923 阅读 · 0 评论 -
将txt转换为pdf
安装ghostscript、paps:Ubuntu:sudo apt installghostscript papsMac:brew installghostscript paps使用paps将txt文件转为ps文件paps example.txt > example.ps再使用ghostscript将ps文件转为pdf文件:ps2pdf example....原创 2019-11-13 16:00:27 · 436 阅读 · 0 评论 -
python实现docx的批注(comments)插入
项目需要实现自动在docx中插入批注,首选为python,python中有docx库,但是到目前为止还是未支持插入批注功能,但是在python-docx项目中,有人提出了这个问题,作者scanny给出了相关指导。总结一下大致思路为:解压docx文件后会得到很多文件及文件夹,对比插入批注和未插入批注的解压文件发现:插入批注会新增一个word/comments.xml文件,并且会修改word/_r...原创 2019-03-14 15:02:54 · 7672 阅读 · 0 评论