python爬虫初级篇-三步走之(一): 下载网页

最新推荐文章于 2021-01-13 18:50:34 发布

小渣渣free

最新推荐文章于 2021-01-13 18:50:34 发布

阅读量425

点赞数

分类专栏： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34674217/article/details/80060159

版权

python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

爬虫的第一步即下载, 通常, 爬虫以下载网页开始, 本文简单介绍如何利用python下载网页

我们知道浏览器查看网页时首先会发送一个请求request给服务器, 服务器根据request请求做一些处理生成一个响应response返回给浏览器, 而这个response中就包含着我们需要的网页(或者数据, 一般静态网站或者服务器端渲染是直接返回网页), 那么我们要下载网页也就只需要模仿浏览器发送这个request给服务器, 然后等着服务器发回response就行.

使用python向服务器发送请求方法很多, 常见的有用urllib、urllib2(针对python2), urllib3(针对python3), requests,等.

这里为了防止初学者混乱, 只介绍使用urllib库发送请求, 至于其他几个库在补充篇里面介绍

这里需要说明, 在python2和python3 里, urllib库用法是不一样的, 这里我主要用的是python3, python2 的同学请自行搜索python2中urllib库的使用

我们以访问百度首页为例

首先当然得引入库了

from urllib import request

然后我们使用 urlopen() 来发送GET请求, 函数参数是想要访问的网页链接

response = request.urlopen("http://www.baidu.com")

得到的响应的一切信息都保存在response对象中, 我们可以通过response.read()来查看我们得到的网页, 在这里我们把网页写入到了py文件对应的同目录下的baidu.html文件中

with open("./baidu.html", "wb") as fp:
    fp.write(response.read())

此时我们可以在py文件同目录下看到baidu.html文件,用浏览器打开会看到百度首页,当然一些图片看不到.不过我们还是成功的下载了百度首页

(如果是用python自带的idle, 最好不要用print(response.read()) 来打印页面,页面大的话容易卡死)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。