python替换pdf内容_python - Python:如何替换pdf中的文本 - SO中文参考 - www.soinside.com...

CAM::PDF Perl Library可以输出不太难解析的文本(它似乎相当随意地分割文本行)。我无法学习太多Perl,所以我写了这些非常基本的Perl命令行脚本,一个将单页pdf读取到文本文件perl read.pl pdfIn.pdf textOut.txt,另一个写入文本(可以在此期间修改)到pdf perl write.pl pdfIn.pdf textIn.txt pdfOut.pdf。

#!/usr/bin/perl

use Module::Load;

load "CAM::PDF";

$pdfIn = $ARGV[0];

$textOut = $ARGV[1];

$pdf = CAM::PDF->new($pdfIn);

$page = $pdf->getPageContent(1);

open(my $fh, '>', $textOut);

print $fh $page;

close $fh;

exit;

#!/usr/bin/perl

use Module::Load;

load "CAM::PDF";

$pdfIn = $ARGV[0];

$textIn = $ARGV[1];

$pdfOut = $ARGV[2];

$pdf = CAM::PDF->new($pdfIn);

my $page;

open(my $fh, '

{

local $/;

$page = ;

}

close($fh);

$pdf->setPageContent(1, $page);

$pdf->cleanoutput($pdfOut);

exit;

你可以使用python call这些在输出的文本文件上做一些正则表达式等东西。

如果你是Perl的新手(就像我一样),你需要确保安装了Perl和CPAN,然后运行sudo cpan,然后在提示符install "CAM::PDF";中,这将安装所需的模块。

此外,我意识到我应该使用stdout等,但我很匆忙:-)

还有,任何想法CAM-PDF输出的格式是什么?有什么文件吗?

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值