python爬虫初级篇-三步走之(一): 下载网页

爬虫的第一步即下载, 通常, 爬虫以下载网页开始, 本文简单介绍如何利用python下载网页

我们知道浏览器查看网页时首先会发送一个请求request给服务器, 服务器根据request请求做一些处理生成一个响应response返回给浏览器, 而这个response中就包含着我们需要的网页(或者数据, 一般静态网站或者服务器端渲染是直接返回网页), 那么我们要下载网页也就只需要模仿浏览器发送这个request给服务器, 然后等着服务器发回response就行.

使用python向服务器发送请求方法很多, 常见的有用urllib、urllib2(针对python2), urllib3(针对python3), requests,等.

这里为了防止初学者混乱, 只介绍使用urllib库发送请求, 至于其他几个库在补充篇里面介绍

这里需要说明, 在python2和python3 里, urllib库用法是不一样的, 这里我主要用的是python3, python2 的同学请自行搜索python2中urllib库的使用

我们以访问百度首页为例

首先当然得引入库了

from urllib import request

然后我们使用 urlopen() 来发送GET请求, 函数参数是想要访问的网页链接

response = request.urlopen("http://www.baidu.com")

得到的响应的一切信息都保存在response对象中, 我们可以通过response.read()来查看我们得到的网页, 在这里我们把网页写入到了py文件对应的同目录下的baidu.html文件中

with open("./baidu.html", "wb") as fp:
    fp.write(response.read())

此时我们可以在py文件同目录下看到baidu.html文件,用浏览器打开会看到百度首页,当然一些图片看不到.不过我们还是成功的下载了百度首页

(如果是用python自带的idle, 最好不要用print(response.read()) 来打印页面,页面大的话容易卡死)


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值