最全利用Python爬取教程并转为PDF文档！，头条算法面试题_python爬取链接中转为 base64的pdf文件-CSDN博客

本文链接：https://blog.csdn.net/2401_84538278/article/details/138809681

一、Python所有方向的学习路线

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。

二、Python必备开发工具

工具都帮大家整理好了，安装就可直接上手！

三、最新Python学习笔记

当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理解，这些理解是比较独到，可以学到不一样的思路。

四、Python视频合集

观看全面零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

五、实战案例

纸上得来终觉浅，要学会跟着视频一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

六、面试宝典

在这里插入图片描述

简历模板

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

            if '#' not in url:

                info['child_chapters'].append({

                    'title': child.a.text.replace('/', '').replace('*', ''),

                    'url': base_url + child.a.get('href'),

})

    chapter_info.append(info)

代码中定义了两个全局变量来保存信息。章节内容保存在chapter_info列表里，里面包含了层级结构，大致结构为：

[

    'title': 'first_level_chapter',

    'url': 'www.xxxxxx.com',

    'child_chapters': [

            'title': 'second_level_chapter',

            'url': 'www.xxxxxx.com',

...

...

]

3.3 获取章节内容

还是同样的方法定位章节内容：

05.获取章节内容

代码中我们通过itemprop这个属性来定位，好在一级目录内容的元素位置和二级目录内容的元素位置相同，省去了不少麻烦。

html_template = “”"

<meta charset="UTF-8">

{content}

“”"

def get_content(url):

"""

解析URL，获取需要的html内容

:param url: 目标网址

:return: html

"""

html = get_one_page(url)

soup = BeautifulSoup(html, 'html.parser')

content = soup.find('div', attrs={'itemprop': 'articleBody'})

html = html_template.format(content=content)

return html

3.4 保存pdf

def save_pdf(html, filename):

"""

把所有html文件保存到pdf文件

:param html:  html内容

:param file_name: pdf文件名

:return:

"""

options = {

    'page-size': 'Letter',

    'margin-top': '0.75in',

    'margin-right': '0.75in',

    'margin-bottom': '0.75in',

    'margin-left': '0.75in',

    'encoding': "UTF-8",

    'custom-header': [

        ('Accept-Encoding', 'gzip')

],

    'cookie': [

        ('cookie-name1', 'cookie-value1'),

        ('cookie-name2', 'cookie-value2'),

],

    'outline-depth': 10,

pdfkit.from_string(html, filename, options=options)

def parse_html_to_pdf():

"""

解析URL，获取html，保存成pdf文件

:return: None

"""

try:

    for chapter in chapter_info:

        ctitle = chapter['title']

        url = chapter['url']

        # 文件夹不存在则创建（多级目录）

        dir_name = os.path.join(os.path.dirname(__file__), 'gen', ctitle)

        if not os.path.exists(dir_name):

            os.makedirs(dir_name)

        html = get_content(url)

        padf_path = os.path.join(dir_name, ctitle + '.pdf')

        save_pdf(html, os.path.join(dir_name, ctitle + '.pdf'))

        children = chapter['child_chapters']

        if children:

            for child in children:

                html = get_content(child['url'])

                pdf_path = os.path.join(dir_name, child['title'] + '.pdf')

                save_pdf(html, pdf_path)

except Exception as e:

    print(e)

3.5 合并pdf

经过上一步，所有章节的pdf都保存下来了，最后我们希望留一个pdf，就需要合并所有pdf并删除单个章节pdf。

from PyPDF2 import PdfFileReader, PdfFileWriter

def merge_pdf(infnList, outfn):

"""

合并pdf

:param infnList: 要合并的PDF文件路径列表

:param outfn: 保存的PDF文件名

:return: None

"""

pagenum = 0

pdf_output = PdfFileWriter()

for pdf in infnList:

    # 先合并一级目录的内容

    first_level_title = pdf['title']

    dir_name = os.path.join(os.path.dirname(

        __file__), 'gen', first_level_title)

    padf_path = os.path.join(dir_name, first_level_title + '.pdf')

    pdf_input = PdfFileReader(open(padf_path, 'rb'))

    # 获取 pdf 共用多少页

    page_count = pdf_input.getNumPages()

    for i in range(page_count):

        pdf_output.addPage(pdf_input.getPage(i))

    # 添加书签

    parent_bookmark = pdf_output.addBookmark(

        first_level_title, pagenum=pagenum)

    # 页数增加

    pagenum += page_count

    # 存在子章节

    if pdf['child_chapters']:

        for child in pdf['child_chapters']:

            second_level_title = child['title']

            padf_path = os.path.join(dir_name, second_level_title + '.pdf')

            pdf_input = PdfFileReader(open(padf_path, 'rb'))

            # 获取 pdf 共用多少页

            page_count = pdf_input.getNumPages()

            for i in range(page_count):

                pdf_output.addPage(pdf_input.getPage(i))

            # 添加书签

            pdf_output.addBookmark(

                second_level_title, pagenum=pagenum, parent=parent_bookmark)

            # 增加页数,小编整理一套Python资料和PDF，有需要Python学习资料可以加学习群：631441315 ，反正闲着也是闲着呢，不如学点东西啦~~

            pagenum += page_count

# 合并

pdf_output.write(open(outfn, 'wb'))

# 删除所有章节文件

shutil.rmtree(os.path.join(os.path.dirname(__file__), 'gen'))

本来PyPDF2库中有一个类PdfFileMerger专门用来合并pdf，但是在合并过程中会抛出异常，网上有人也遇到同样的问题，解决办法是修改库源码，本着“不动库源码”的理念，毅然选择了上面这种比较笨的办法，代码还是比较好理解的。

经过以上几个步骤，我们想要的pdf文件已经生成，一起来欣赏一下劳动成果：