怎么在python下载网站内容-用Python下载一个网页保存为本地的HTML文件实例

最新推荐文章于 2024-07-25 08:08:29 发布

weixin_37988176

最新推荐文章于 2024-07-25 08:08:29 发布

阅读量3.5k

点赞数

我们可以用Python来将一个网页保存为本地的HTML文件，这需要用到urllib库。

比如我们要下载山东大学新闻网的一个页面，该网页如下：

实现代码如下：

import urllib.request

def getHtml(url):

html = urllib.request.urlopen(url).read()

return html

def saveHtml(file_name, file_content):

# 注意windows文件命名的禁用符，比如 /

with open(file_name.replace('/', '_') + ".html", "wb") as f:

# 写文件用bytes而不是str，所以要转码

f.write(file_content)

aurl = "http://www.view.sdu.edu.cn/info/1003/75240.htm"

html = getHtml(aurl)

saveHtml("sduview", html)

print("下载成功")

打开相应的目录可以看到这个网页已经被下载保存成功了

我们用浏览器打开这个网页文件如下

由于我们只是下载了网页的主要源码，其中的很多图片之类的文件都不在这里。因此这种方法只适用于提取文字内容。

以上这篇用Python下载一个网页保存为本地的HTML文件实例就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持脚本之家。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_37988176

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

用Python下载一个网页保存为本地的HTML文件实例

12-25

我们可以用Python来将一个网页保存为本地的HTML文件，这需要用到urllib库。比如我们要下载山东大学新闻网的一个页面，该网页如下：实现代码如下： import urllib.request def getHtml(url): html = urllib.request.urlopen(url).read() return html def saveHtml(file_name, file_content): # 注意windows文件命名的禁用符，比如 / with open(file_name.replace('/', '_') + ".html", "wb") as

Python爬取文件的11种方式

琦的博客

05-11

1万+

Python下载文件的11种方式本文将讲述使用不同的Python模块从web下载文件。说是下载其实就是爬虫啦！！！废话不多开始正题使用Requests 你可以使用requests模块从一个URL下载文件。 import requests url='https://ss3.bdstatic.com/70cFv8Sh_Q1YnxGkpoWK1HF6hhy/it/u=1618309945,4014036594&fm=26&gp=0.jpg' myfile=requests.get(url)

参与评论您还未登录，请先登录后发表或查看评论

用 Python 实现一个网页下载工具

Alpenbelieve的博客

09-09

1812

几个月前，我完成了一次网络综合实验的课设，内容是要设计并实现一个网站下载程序。感觉里面有几个地方挺有意思的，于是在此记录下自己的思路，与大家分享。实验要求网站下载程序可以按照要求下载整个网站的网页，其原理是分析每个页面中的所有链接，然后根据该链接下载单个文件，并保存下来，采用递归方式进行扫描下载，直到下载页数达到设定好的最大值或者下载层数达到了设定的最大层数才停止。主要功能 (1) 设定站...

python 自动下载网页数据

热门推荐

Circle-C的博客

02-25

1万+

根据网站资源引用说明：pyecharts 使用的所有静态资源文件存放于 pyecharts-assets 项目中，默认挂载在https://assets.pyecharts.org/assets/ 因为默认优先从远程引用资源，这就导致有的时候无法加载js文件，图表显示不出来解决办法：下载所需js文件到本地，修改资源引用地址看网站的介绍，pyecharts 提供了更改全局 HOST ...

关于python爬虫html文件打开是空白页的问题

weixin_56011773的博客

06-16

2817

关于python爬虫html文件打开是空白页的问题

python把html页面生成图片_[Python] 怎么把HTML的报告转换为图片，利用无头浏览器...

weixin_39744316的博客

12-04

333

How to convert HTML Report to picture format in Email? So that we can see the automation report also at home or on mobile phone anywhere.We tried to use phantomJs to get the full-page screenshot of HT...

python将网页转换为图片保存

weixin_41927456的博客

08-07

5657

前言：我们可能会遇到将html网页转为图片，介绍我遇到的两种不同情况下的方式。环境：python中的selenium 1.网站中的网页转换为图片：思路：使用selenium的PhantomJS将网页转换为图片。 #-*- coding=utf-8 -*- #@Time : 2020/8/7 10:08 PM #@Author : 小邋遢 #@File : tset.py #@Software : PyCharm from selenium import webdriver # 从selenium库导

python网络编程之文件下载实例分析

09-22

本篇文章将深入探讨这两种协议在Python中的实现方法，以及如何使用Python的内置库来实现文件的下载。首先，让我们看看FTP文件下载。Python的`ftplib`模块提供了FTP客户端的功能。以下是一个简单的FTP下载示例： `...

Python实现抓取HTML网页并以PDF文件形式保存的方法

01-20

本文实例讲述了Python实现抓取HTML网页并以PDF文件形式保存的方法。分享给大家供大家参考，具体如下：一、前言今天介绍将HTML网页抓取下来，然后以PDF保存，废话不多说直接进入教程。今天的例子以廖雪峰老师的...

文件操作-批量提取文件名保存到一个文件中-Python实例源码.zip

12-13

本实例主要关注如何使用Python语言批量提取文件名并将其保存到一个文件中。这个过程可以应用于多种场景，例如文件管理、日志记录、数据处理等。接下来，我们将深入探讨如何实现这一功能。首先，Python提供了强大的...

用 Python 将 html 转为 pdf、word

y1282037271的博客

12-17

1414

在日常中有时需将 html 文件转换为 pdf、word 文件。网上免费的大多数不支持多个文件转换的情况，而且在转换几个后就开始收费了。

Python将HTML保存为PDF

ylmx5201314的博客

05-22

1141

wkhtmltopdf是一个命令行工具，主要用于将HTML转换为PDF文件。pdfkit是对wkhtmltopdf的封装，Python可以通过pdfkit调用wkhtmltopdf，进而实现批量转换PDF操作。

Python-提取本地HTML文件提取图片URL

A4545156的博客

08-03

1201

newline中已经存在所有的URL文件，我们使用Python中的集合使用set将列表转换为集合类型，主要作用是去重，使用循环遍集合，并调用save_image函数，这个函数是我们的保存函数，循环结束后，i.split(“/”)[-1]用来分割URL链接的最后一部分作为文件的名字，循环完成后所有图片文件将位于D:\img下，并已i.split(“/”)[-1]来命名循环代码。

python绘图后保存的图片打开为什么是空白？

weixin_57975581的博客

09-06

5074

绘图

用python将HTML转换成pdf、png图片的方法.docx

ltaotao_2008的博客

05-29

2482

python imgkit将HTML转化为图片

weixin_43420193的博客

06-13

6183

有个需求，需要将HTML转换成图片。于是按照网上的办法找到imgkit库，windows操作很简单。window： python 代码如下：测试没有问题，完美输出。部署到CentOS Linux release 7.9.2009 (Core)上出现异常：centos 环境正确配置 wkhtmltopdf：cannot connect to X server 只要做好链接，就可以直接使用了...

如何用python实现一个简单下载器的服务端和客户端

mornslide的博客

10-26

248

如何用python实现一个下载器的服务端和客户端话不多说，先看代码：`` 客户端： import socket def main(): #creat: download_client=socket.socket(socket.AF_INET,socket.SOCK_STREAM) #link: serv_ip=input("please input server...

Word处理控件Aspose.Words功能演示：在 Python 中将 HTML 转换为 PNG、JPEG、BMP、GIF 或 TIFF 图像

励志做最业余的专业博主，控件产品可以私我~

12-15

1666

它使我们能够生成、修改、转换、渲染和打印 Microsoft Word（DOC、DOCX、ODT）、PDF和 Web（HTML、Markdown）文档。在某些情况下，我们可能需要将 HTML 文档转换为JPG、PNG、TIFF、BMP、GIF等图像格式。在本文中，我们将学习如何将 HTML 转换为 PNG、JPEG、BMP、GIF、或 Python 中的 TIFF 图像。同样，我们也可以按照前面提到的步骤将 HTML 文档转换为 GIF 图像。将 HTML 转换为图像的 Python API。

前端表白html网页下载

11-16

表白html网页下载是指在互联网上找到一份html格式的页面用来向喜欢的人表达爱意并下载到本地。通常情况下，这样的页面会采用一些特别的设计和布局来表达作者的情感。在下载这样的页面时，可以通过右键点击页面，选择“另存为”来将页面保存到本地。有时候也会提供下载链接，让用户直接点击进行下载。当然，在下载他人表白页面时，应该尊重作者的原创作品，不要私自篡改或者用于其他非法用途。另外，也不建议盲目下载未知来源的页面，避免带来安全隐患。总的来说，表白html网页下载是一种将表白的情感通过特殊的页面传达给对方的方式，在下载这样的页面时应当谨慎并且尊重原创。