python将html存为pdf_用Python将HTML转为PDF。

最新推荐文章于 2024-06-13 14:59:23 发布

TRLU番的葡萄

最新推荐文章于 2024-06-13 14:59:23 发布

阅读量1.4k

点赞数

文章标签： python将html存为pdf

本文链接：https://blog.csdn.net/weixin_34602954/article/details/113980047

版权

本文介绍如何使用Python的pdfkit和wkhtmltopdf库将网页内容转换为PDF，包括处理网页图片、保存和调用本地图片，以及转换过程中需要注意的事项。此外，文章还提及了一个关于华章计算机抖音大赛的结果，以及作者对送书活动的一些想法和未来的规划。

摘要由CSDN通过智能技术生成

上期提到了如何获取公众号文章信息，这回就说下怎么将网页转为PDF，方便日常学习。html

而后扩散一下以前一个比赛的结果(华章计算机抖音大赛)。数据库

顺便谈谈本身对从此送书的一个想法。微信

另外以前的送书活动，有中奖的读者没有联系我，因此这回一并送出。app

明天还会送两本书，你们也能够关注一下。ide

/ 01 / HTML转PDF学习

主要用到的库有pdfkit及wkhtmltopdf。url

安装我就不说了，网上也是一堆教程，经过下面的代码也能略知一二。spa

须要注意的点就是，把网页转PDF的时候，须要将网页的图片下载下来，保存在本地。orm

而后生成网页时调用本地的图片，这样就不会出如今PDF中图片缺失的状况。htm

本次没有去设置详细的PDF参数，因此生成的PDF排版并非很友好，不过仍是能凑合看的。

具体转换代码以下。

import pandas as pd

import requests

import pdfkit

import os

import re

# 读取数据并清洗

df = pd.read_csv('article.csv', header=None, names=['title', 'digest', 'article_url', 'date'], encoding='gbk')

df['date'] = pd.to_datetime(df.date.values, unit='s', utc=True).tz_convert('Asia/Shanghai')

df_date = df['date'].astype(str).str.split(' ', expand=True)

df['day'] = df_date[0]

# 获取目录的绝对路径

fileDir = os.path.abspath(os.path.dirname('F:\\article_pdf'))

headers = {

"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 MicroMessenger/6.5.2.501 NetType/WIFI WindowsWechat QBCore/3.43.901.400 QQBrowser/9.0.2524.400",

}

proxies = {

"https": None,

"http": None,

}

# 设置转PDF参数

options = {

"page-size": "Letter",

"encoding": "UTF-8",

"custom-header": [

("Accept-Encoding", "gzip")

]

}

# 调用wkhtmltopdf

# confg = pdfkit.configuration(wkhtmltopdf=r"C:\Users\Administrator\wkhtmltox-0.12.5-1.mxe-cross-win64\wkhtmltox\bin\wkhtmltopdf.exe")

for title, url, date in zip(df['title'], df['article_url'], df['day']):

print(title, url, date)

# 替换特殊符号

title = re.sub('[\/:：*?"<>|]', '', title)

title = title.replace('\\', '_')

# html文件名

html_name = '{}/{}.html'.format('F:\\article_pdf', date + '_' + title)

res = requests.get(url, headers=headers, proxies=proxies, timeout=3)

html = res.text

# 用?来控制正则贪婪和非贪婪匹配;(.*?) 小括号来控制是否包含匹配的关键字

pattern = re.compile(r'data-src=\"http.*?\"')

result = pattern.findall(html)

picCnt = 0

for i in result:

picCnt = picCnt + 1

url = re.findall(r'\"(.*?)\"', i)[0]

# 图片名

picture_name = '{}/{}.png'.format('F:\\article_pdf', str(picCnt))

# 调用本地图片

html = html.replace(url, picture_name)

# 获取图片内容

r = requests.get(url)

with open(picture_name, "wb+") as f:

f.write(r.content)

# 保存html文件

html = html.replace('data-src', 'src')

fd = open(html_name, 'w', encoding="utf-8")

fd.write(html)

fd.close()

pdf_name = '{}/{}.pdf'.format('F:\\article_pdf', date + '_' + title)

try:

# html转pdf

pdfkit.from_file(html_name, pdf_name, options=options)

except:

pass

最后成功生成全部文章的PDF。

这里不知是为什么，生成PDF的时间挺长的，平均一个PDF耗时三分钟。

/ 02 / 比赛结果

以前公众号对华章计算机抖音大赛进行了推广，在上个礼拜比赛的结果也出来了。

这里帮出版社扩散一下比赛结果。

华章计算机抖音大赛比赛结果

固然我也参加了，并且也获奖了，不过是参与奖，四本书。

活动参与的人并很少，一共应该就只有8我的参赛。

讲道理，900元现金以及30本书，这么丰厚的奖品，活动却没多少人参加，这值得沉思。

固然还会有第二届，届时我还会帮忙宣传，这回没有参加的小伙伴，下回必定要抓住机会。

为何我会继续支持呢？这应该源于我以前参加的一个PPT比赛。

至今，我还留存着参与活动后的那本赠书。

书很不错，我也从中学到了很多东西。

固然最重要的是动手就有收获的道理。

种一棵树最好的时间是十年前，其次是如今。因此行动起来，绝对没错。

从此的送书活动，若是条件容许的话，也将会以一些小比赛的形式送出，敬请期待。

/ 03 / 送书

下面应该是上个礼拜的截图了，姑且就以此做为参照。

以上的读者，若是对下面这本书有兴趣的话。

能够微信联系我，先到先得，就一本。

微信联系方式能够在公众号菜单栏里找到。

一本有关Oracle数据库的书。

明天送的两本是有关Python数据分析的书，能够关注一下。

/ 04 / 总结

两期的文章代码已上传「GitHub」。

点击左下角阅读原文，便可获取。

万水千山老是情，点个「在看」行不行。

TRLU番的葡萄

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python将html存为pdf_用Python将HTML转为PDF。

上期提到了如何获取公众号文章信息，这回就说下怎么将网页转为PDF，方便日常学习。html而后扩散一下以前一个比赛的结果(华章计算机抖音大赛)。数据库顺便谈谈本身对从此送书的一个想法。微信另外以前的送书活动，有中奖的读者没有联系我，因此这回一并送出。app明天还会送两本书，你们也能够关注一下。ide/ 01 / HTML转PDF学习主要用到的库有pdfkit及wkhtmltopdf。url安装我就不...
复制链接

扫一扫