爬虫对pdf链接文本处理

最新推荐文章于 2024-06-11 20:20:32 发布

一只长不胖的猪

最新推荐文章于 2024-06-11 20:20:32 发布

阅读量2.1k

点赞数 4

分类专栏： python爬虫

本文链接：https://blog.csdn.net/JONE_WUQINGJIANG/article/details/94581538

版权

python爬虫专栏收录该内容

9 篇文章 0 订阅

订阅专栏

最近公司有个爬虫需求需要爬取一个网站的文本内容，但是网站都是pdf的格式，以链接方式呈现出来。我一开始的思路就是把pdf下载到本地下来然后处理pdf，但是这样会很麻烦。如果直接处理pdf链接然后返回pdf中的文本就是最好了。于是在网上找了一些资料，自己封装了一个方法。
在这里插入图片描述
主要代码：

from urllib.request import urlopen

from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfparser import PDFParser, PDFDocument


def pdftocontent(url):
    pdfFile=urlopen(url)
    parser = PDFParser(pdfFile)
    doc = PDFDocument()
    parser.set_document(doc)
    doc.set_parser(parser)
    doc.initialize('')
    resources = PDFResourceManager()
    laparam = LAParams()
    device = PDFPageAggregator(resources,laparams=laparam)
    interpreter = PDFPageInterpreter(resources,device)
    str_text = ''
    for page in doc.get_pages():
        # 使用页面解释器读取页面
        interpreter.process_page(page)
        # 使用聚合器读取页面页面内容
        layout = device.get_result()
        for out in layout:
            if hasattr(out, 'get_text'):  # 因为文档中不只有text文本
                str_text = str_text + out.get_text()
    return str_text

if __name__ == '__main__':
    str_content = pdftocontent('https://trust.pingan.com/trustupload/4094/2019-07/CMS1561952702369.pdf')
    print(str_content)

运行结果：
在这里插入图片描述
当然python也可以处理word，csv等等格式的下载。之后会分享各种处理方法。

一只长不胖的猪

关注

4
点赞
踩
10

收藏

觉得还不错? 一键收藏
7
评论
爬虫对pdf链接文本处理

最近公司有个爬虫需求需要爬取一个网站的文本内容，但是网站都是pdf的格式，以链接方式呈现出来。我一开始的思路就是把pdf下载到本地下来然后处理pdf，但是这样会很麻烦。如果直接处理pdf链接然后返回pdf中的文本就是最好了。于是在网上找了一些资料，自己封装了一个方法。主要代码：from urllib.request import urlopenfrom pdfminer.converte...
复制链接

扫一扫

专栏目录