网站图片爬虫html,简单的模拟浏览器爬取网页和图片

最新推荐文章于 2024-08-17 17:18:53 发布

Playmz

最新推荐文章于 2024-08-17 17:18:53 发布

阅读量297

点赞数

文章标签：网站图片爬虫html

本文介绍了使用Python的urllib库进行网页数据爬取的基本操作，包括获取网页内容、响应头信息、响应码以及如何将网页内容保存到文件中。此外，还展示了如何下载网页上的图片，提供了两种不同的保存方式。通过实例代码，帮助读者理解Python爬虫的基础知识。

摘要由CSDN通过智能技术生成

爬取html

import urllib.request

# 请求行

url = "http://www.baidu.com"

# 专门处理url进行数据的读取

response = urllib.request.urlopen(url)

# 以二进制的方式进行数据的读取

# print(response.read().decode("UTF8"))

# 得到的是响应的头部信息

print(response.headers)

# 得到响应头，返回的是一个含有头信息的元祖的列表

print(response.getheaders())

#获取响应码

print(response.getcode())

# 将响应的数据保存到文件中

# 第一种方式

with open("baidu.html","w",encoding="utf8")as fp:

fp.write(response.read().decode("utf8"))

#第二种方式

url = "http://www.baidu.com/"

#urlretrieve()是指直接读取url并将读取的文件写入到指定的文件中

urllib.request.urlretrieve(url,"baidu3.html")

爬去网页上的图片

先指定图片的网址，注意网址必须是以图片的格式结尾

imgurl="https://gss2.bdstatic.com/9fo3dSag_xI4khGkpoWK1HF6hhy/baike/c0%3Dbaike116%2C5%2C5%2C116%2C38/sign=f95f755efa36afc31a013737d27080a1/8ad4b31c8701a18b7dc62ad1932f07082838fe7b.jpg"

读取图片的数据

response1 = urllib.request.urlopen(imgurl)

并将图片按照图片的格式显示出来

with open("wu.png","wb") as tf:

tf.write(response1.read())

原文：https://www.cnblogs.com/kuangkuangduangduang/p/10364229.html

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。