网络爬虫从入门到实践(二)————静态网页的爬取

本文介绍了Python爬虫入门的基础知识,包括使用requests库进行静态网页的爬取,讲解了如何安装requests,获取响应内容,设置URL参数,定制请求头,发送POST请求以及处理超时问题。此外,还通过实例展示了如何爬取豆瓣电影TOP250的数据。
摘要由CSDN通过智能技术生成

 

静态网页的爬取

1.安装requests

pip install requests

2.获取响应内容

import requests

r = requests.get(url)
#打印出文本编码
print("文本编码", r.encoding)

#打印出状态响应码
print("状态响应码", r.status_code)

#打印出字符串方式的响应体(即文本)
print("字符串方式的响应体",t.text)

这样就返回了一个名为 r 的 response 响应对象,存储了服务器的响应内容

r.text 是服务器响应的内容

r.enconding是服务器内容使用的文本编码

r.status_code 用于检测响应的状态码,若返回200,则表示请求成功,若返回4xx,则表示客户端错误,若返回5xx, 则表示服务器错误响应。

r.content 是字节方式的响应体,会自动解码 gzip 和 deflate 编码的响应数据

 

 

r.json()是 requests 中内置的json解码器

 

3.定制 requests

(1)传递 url 参数

为了请求特定的数据,我们要在 URL 的查询字符串中加入变量,数据跟在一个问号的后面,以键值对的形式放在 url中。在

requests中,可以把这些参数保存到字典中,然后用 params构建到 URL 中。


                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值