python将网页上的教程爬取下来存成pdf

最新推荐文章于 2024-04-29 17:33:49 发布

(×_×#

最新推荐文章于 2024-04-29 17:33:49 发布

阅读量751

点赞数

本文链接：https://blog.csdn.net/weixin_42296333/article/details/95450053

版权

首先：

pip install webpage2pdf

pip install pypdf2

如果没有安装pyqt5，则需要安装pyqt5，高本版或报错，可以装早些的版本

pip install PyQt5==5.9.2

将所有网站的地址逐行存到文本文件1.txt中

编写脚本和1.txt放到同一个空文件夹下

from webpage2pdf import RenderManager

if __name__=='__main__':

rm=RenderManager()

rm.addRender(6,showUI=False) #启用六个进程

file=open('1.txt','r')

counter=0

for line in file:

rm.from_url(line[:-1],str(counter)+’.pdf’)

file.close()

rm.waitFinish()

运行脚本等待所有任务完成，这里开6个进程爬取了61个网页，用时不到5分钟

得到所有的pdf后在该文件夹下在建一个脚本将所有pdf合并

from PyPDF2 import PdfFileWriter,PdfFileReader

inStreamList=[]

#输入流要在pdfWriter将数据写入到输出流才能关闭

#先键所有输入流放入列表，最后统一关闭

pdfWriter=PdfFileWriter()

counter=61 #得到的pdf的数量

for i in range(counter):

inStream=open(str(i)+’.pdf’,’rb’)

pdfReader=PdfFileReader(inStream)

pdfWriter.appendPagesFromReader(pdfReader)

inStreamList.append(inStream)

outStream=open('out.pdf','wb')

pdfWriter.write(outStream)

outStream.close()

for stream in inStreamList:

stream.close()

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

(×_×#

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python 爬取网页内容并保存为pdf格式

09-16

利用Python爬取网页中的图片内容，并将其转换为pdf格式的文件。

Python爬虫：爬取在线教程生成pdf

C与Python实战

04-15

5328

作为一名程序员，经常要搜一些教程，有的教程是在线的，不提供离线版本，这就有些局限了。那么同样作为一名程序员，遇到问题就应该解决它，今天就来将在线教程保存为PDF以供查阅。 1、网站介绍 2、准备工作 2.1 软件安装 2.2 库安装 3、爬取内容 3.1 获取教程名称 3.2 获取目录及对应网址 3.3 获取章节内容 3.4 保存pdf 3.5 合并pdf 4、完整代码 ...

参与评论您还未登录，请先登录后发表或查看评论

python爬虫读取pdf_python爬取网页转换为PDF文件

weixin_39628041的博客

11-24

164

爬虫的起因官方文档或手册虽然可以查阅，但是如果变成纸质版的岂不是更容易翻阅与记忆。如果简单的复制粘贴，不知道何时能够完成。于是便开始想着将android的官方手册爬下来。全篇的实现思路分析网页学会使用beautifulsoup库爬取并导出参考资料：配置在ubuntu下使用pycharm运行成功转pdf需要下载wkhtmltopdf具体过程网页分析如下所示的一个网页,要做的是获取该网页的正文和标题，...

用python抓取网页中所有pdf文件的笨方法

morgan2018的博客

12-01

8812

进入下载中心： https://www.sensirion.com/en/download-center/ 在网页任意地方点击右键，后选择inspection 右边选择elements 一直向下翻找到 “catgroup downloads" 或者合并第三步，第四步，直接在本页第一个下载链接点击右键，选择inspection 这样可以直接在链接上面看到catgroup downloads 此时可以看到，所有的catgroup downloads，这里面包含了https://ww..

用 Python 爬取网页 PDF 和文档

mycsdn的博客

10-02

6106

找到输入框对应的标签，根据 class name 进行内容清楚和输入（如果标签有 id 属性可以根据 id 进行输入框确定），代码如下。注意：ANSI 编码的文本在 kindle 打开会有部分乱码，UTF-8 编码的不会。缺点：str(news_context) 的使用导致 div 标签出现，且。获取标签的某个属性，例如 a 标签的 href 属性，代码如下。如果标签属性较少，则可以使用正则提取，例子及其代码如下。，可以免费查看部分资料，全部资料的话是收费的。除了上述两个作为例子的网站，还有。

基于Python的网页信息爬取技术研究.pdf

06-28

基于Python的网页信息爬取技术研究涉及网络爬虫（Web Crawler）的构建与应用，是互联网数据挖掘领域的重要分支。研究使用了Python编程语言，并主要依托BeautifulSoup库来实现高效、准确的信息抓取。以下是该领域研究...

python爬取网页转换为PDF文件

09-20

主要为大家详细介绍了python爬取网页转换为PDF文件，具有一定的参考价值，感兴趣的小伙伴们可以参考一下

python 批量爬取网页pdf_爬取网页文件并批量解析pdf

weixin_34360879的博客

02-19

4656

很多时候我们需要爬取网上的文件并提取文件的数据做对比，文件一般为pdf格式需要转化为excel表格，现在可以用python实现采集数据到提取数据的全流程操作。一、首先要爬取网页内容下载pdf文件import requestsfrom lxml import htmletree = html.etreeimport osimport timedef main(i):#第一页if i==1:url =...

利用Python爬取教程并转为PDF文档！

最新发布

2401_84584535的博客

04-29

823

代码中定义了两个全局变量来保存信息。章节内容保存在列表里，里面包含了层级结构，大致结构为：还是同样的方法定位章节内容：05.获取章节内容代码中我们通过itemprop这个属性来定位，好在一级目录内容的元素位置和二级目录内容的元素位置相同，省去了不少麻烦。{content}“”"经过上一步，所有章节的pdf都保存下来了，最后我们希望留一个pdf，就需要合并所有pdf并删除单个章节pdf。学好 Python 不论是就业还是做副业赚钱都不错，但要学会 Python 还是要有一个学习规划。

Python爬虫：爬取在线教程转成pdf

m0_73720982的博客

09-22

608

之前再搜资料的时候经常会跳转到如下图所示的在线教程：01.教程样式包括一些github的项目也纷纷将教程链接指向这个网站。经过一番查找，该网站是一个可以创建、托管和浏览文档的网站，其网址为：https://readthedocs.org。在上面可以找到很多优质的资源。该网站虽然提供了下载功能，但是有些教程并没有提供PDF格式文件的下载，如图：02.下载该教程只提供了 HTML格式文件的下载，还是不太方便查阅，那就让我们动手将其转成PDF吧！

python爬虫读取pdf_python爬虫处理在线预览的pdf文档

weixin_39980002的博客

11-20

1822

引言最近在爬一个网站，然后爬到详情页的时候发现，目标内容是用pdf在线预览的比如如下网站：https://camelot-py.readthedocs.io/en/master/_static/pdf/foo.pdf根据我的分析发现，这样的在线预览pdf的采用了pdfjs加载预览，用爬虫的方法根本无法直接拿到pdf内的内容的，对的，你注意到了我说的【根本无法直接拿到】中的直接两个字，确实直接无法拿...

python将网页保存为pdf,利用Python将网页保存为PDF文件

weixin_29201859的博客

03-26

788

环境简介wkhtmltopdf可以直接把任何一个可以在浏览器中浏览的网页直接转换成一个pdf，首先说明一下它不是一个python库，而是一个把html页面转换成pdf的一个软件，我们需要在系统上安装它。Ubuntu 16.04 安装wkhtmltopdf$ sudo apt-get install wkhtmltopdf然后Python需要使用这个软件需要再安装一个库sudo pip3 insta...

Python实现网页抓取并保存为PDF文件的方法

CyberNova的博客

09-23

781

库之前，你需要确保已经安装了适当的PDF转换工具，如Wkhtmltopdf。现在我们可以使用上述定义的函数来抓取HTML网页并将其保存为PDF文件。在Python中，我们可以使用第三方库来抓取HTML网页并将其保存为PDF文件。现在我们已经获取了HTML网页的内容，接下来我们需要将它保存为PDF文件。在实现代码之前，我们需要在Python脚本中导入所需的库。希望这个示例能帮助你实现Python中抓取HTML网页并保存为PDF文件的功能！接下来，我们需要编写一个函数，用于抓取HTML网页的内容。

python使用pdfminer解析页面内容，得到内容的详细坐标

呆萌的代Ma

11-29

1765

官方文档地址：https://pdfminersix.readthedocs.io/en/latest/reference/index.html github地址：https://github.com/pdfminer/pdfminer.six pdfminer与pdf基本概念：https://euske.github.io/pdfminer/programming.html 使用pdfminer需要首先安装： pip install pdfminer.six 示例 import requests im

python爬取pdf网页,Python从URL抓取pdf

weixin_35034088的博客

01-14

582

I want to scrape the text from the URL "http://www.nycgo.com/venues/thalia-restaurant#menu"The text I'm interested in is in the 'menu' tab on the page. I tried BeautifulSoup to get all the text on the...

Python爬取网页并存储为pdf

weixin_44521703的博客

09-15

4742

起因是最近准备学习TensorFlow，找了个网页教程，质量感觉挺好，但是页面广告巨多，不小心就能中雷，就想用爬虫爬下来，净化一下，一开始是拒绝的，因为爬虫下来的话，格式跟网页就不一定一样了，说不定会乱七八糟，直到后来发现了pdfkit这个工具，（需要安装whtmltopdf）。然后就一发不可收拾了：遇到的障碍就是图片一开始无法加载，索性一不做二不休在存储源码的时候直接改位置，让其按照我的心意存...

python3将网页保存为pdf

锅炉房刘大爷的博客

10-27

648

主要借助pdfkit库实现，而且需要下载wkhtmltopdf.exe，然后才能正常使用： import pdfkit wk_path = r'D:\wkhtmltopdf\bin\wkhtmltopdf.exe' config = pdfkit.configuration(wkhtmltopdf=wk_path) pdfkit.from_url(url, dest_path, configuration=config) ...

Python 利用Selenium爬取嵌入网页的PDF（web embedded PDF）

Gfrwe的博客

08-11

4918

"plugins.always_open_pdf_externally": True #PDF始终在外部打开#chrome_options.add_experimental_option('detach', True) #webdriver打开浏览器后保持开启，一般用于测试出错用driver.switch_to.frame("myIframe") #由于PDF始终在外部打开，打开PDF文件地址后不会显示PDF，而会出现“打开”按钮，该按钮在iframe中。本句将driver转到Iframe中。

python批量爬取网页上的pdf

06-01

你可以使用Python的requests和BeautifulSoup库来批量爬取网页上的pdf文件。下面是一个示例代码： ``` import requests from bs4 import BeautifulSoup import os # 目标网页的URL url = 'https://www.example.com' # 发送HTTP请求获取网页内容 response = requests.get(url) # 解析HTML文档 soup = BeautifulSoup(response.text, 'html.parser') # 查找页面中的所有<a>标签 links = soup.find_all('a') # 遍历所有链接 for link in links: # 获取链接的URL href = link.get('href') # 如果链接是pdf文件 if href.endswith('.pdf'): # 发送HTTP请求获取文件内容 file = requests.get(href) # 获取文件名并保存文件 filename = os.path.basename(href) with open(filename, 'wb') as f: f.write(file.content) ``` 这段代码会发送一个HTTP请求到指定的网址，获取网页内容并使用BeautifulSoup库解析HTML文档。然后，它查找页面中的所有`<a>`标签，如果链接是pdf文件，则发送HTTP请求获取文件内容，并保存到本地文件中。你可以根据需要修改代码来适应不同的网页结构和需求。