保存网页上的所有图片然后转换成pdf文档

6 篇文章 0 订阅

今天看到微信 公众号的文章,而文章内容都是图片,想要保存图片并制成pdf文档,于是有了今天的技术实现。

保存图片

在控制台下面输入以下代码
代码一:输出所有格式图片

// 获取页面中所有图片元素
let images = document.querySelectorAll('img');

// 遍历所有图片元素并输出它们的src属性
images.forEach(img => {
    console.log(img.src);
});

代码二 保存某网址下的图片

// 获取页面中所有图片元素
let images = document.querySelectorAll('img');

// 遍历所有图片元素并输出以'http://xxx'开头的图片URL地址
images.forEach(img => {
    if (img.src.startsWith('http://xxx')) {
        console.log(img.src);
    }
});

使用idm从剪贴板批量下载

python代码实现jpg2pdf

先安装运行库

pip install PIL 

源代码

from PIL import Image
import os

def combine_imgs_pdf(folder_path, pdf_file_path):
    """
    合成文件夹下的所有图片为pdf
    Args:
        folder_path (str): 源文件夹
        pdf_file_path (str): 输出路径
    """
    folder_path = os.path.normpath(folder_path)  # 规范化路径
    pdf_file_path = os.path.normpath(pdf_file_path)  # 规范化路径

    files = os.listdir(folder_path)
    png_files = []
    sources = []
    for file in files:
        _, file_extension = os.path.splitext(file)
        if file_extension.lower() in ['.png', '.jpg']:
            file_path = os.path.join(folder_path, file)
            print("Adding file to png_files:", file_path)
            png_files.append(file_path)
    png_files.sort()
    
    if not png_files:
        print("No PNG or JPG files found in the folder.")
        return
    
    output = Image.open(png_files[0])
    png_files.pop(0)
    for file in png_files:
        png_file = Image.open(file)
        if png_file.mode == "RGB":
            png_file = png_file.convert("RGB")
        sources.append(png_file)
    
    output.save(pdf_file_path, "pdf", save_all=True, append_images=sources)

if __name__ == "__main__":
    folder = r"E:\下载\jpg\针灸大全\\"
    pdfFile = r"E:\下载\jpg\针灸大全\针灸大全笔记.pdf"

    combine_imgs_pdf(folder, pdfFile)


  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
可以使用Python中的多个库来实现将爬取到的网页内容转换PDF格式并保存。以下是一种可能的实现方法,使用了`pdfkit`和`BeautifulSoup`库: 首先,确保你已经安装了`pdfkit`和`BeautifulSoup`库。可以使用以下命令进行安装: ``` pip install pdfkit beautifulsoup4 ``` 接下来,你需要安装一个HTML转PDF的工具,例如`wkhtmltopdf`。你可以在`wkhtmltopdf`的官方网站上下载并安装适合你操作系统的版本。 安装完后,你可以使用以下代码将爬取到的网页内容转换PDF保存: ```python import pdfkit from bs4 import BeautifulSoup import requests # 爬取网页内容 url = 'https://www.example.com' # 替换你要爬取的网页URL response = requests.get(url) html_content = response.content # 解析HTML内容 soup = BeautifulSoup(html_content, 'html.parser') # 将HTML内容保存为临时文件 with open('temp.html', 'w', encoding='utf-8') as f: f.write(str(soup)) # 将临时文件转换PDF保存 pdfkit.from_file('temp.html', 'output.pdf') # 删除临时文件 os.remove('temp.html') ``` 在上面的代码中,我们首先使用`requests`库获取网页的内容,然后使用`BeautifulSoup`库解析HTML内容。接下来,我们将HTML内容保存为临时文件`temp.html`,然后使用`pdfkit`库将临时文件转换PDF格式并保存为`output.pdf`。最后,我们删除临时文件。 请注意,使用`pdfkit`进行HTML转PDF时,你需要提前安装并配置好`wkhtmltopdf`工具。具体安装和配置方式可以参考`wkhtmltopdf`的官方文档。 希望这个例子能帮到你!如果还有其他问题,请随时提问。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值