R中可以对PDF做很多操作,如关键词提取、页数统计、多PDF拆分与合并等。这里精选相关R包,以便于后续取用。
CRAN - Package pdfsearch:可以找到关键字在PDF文件中的所在行,以及上下的行的文本。如果要对PDF文件做文本分析,是一个很好的工具。
CRAN - Package staplr:对PDF文件进行合并、拆分、删除、旋转、重命名等操作。
CRAN - Package qpdf:对PDF文件进行拆分、合并和压缩。
CRAN - Package pdftools:可以对PDF中的数据进行提取,同时可以高效转格式(如JPG等图片格式)。