网络爬虫(一):requests的基本使用

在学习爬虫的过程中总结一些经验

1.发送请求
第一步:导入request模板

import requests

然后就可以获取一个网页

req = requests.get(url)

get是获取HTML网页的主要方法,对应于HTTP的GET,request模板除了get之外还有很多其他的应用。
譬如说:

req = requests.post(url)
req = requests.put(url)
req = requests.delete(url)
req = requests.head(url)
req = requests.options(url)

2.获取信息
(一)可以通过req.text来获取所爬网站的内容:

import requests
req = requests.get(url)
r=req.text
print(r)

(二)可以使用r.encoding来获取网页编码:

import requests
req=requests.get(url)
r=req.encoding

这样就可以得到该网址的网页编码
(三)req.status_code可以直接获得该网页的状态码。
输出结果为200 该网页可以正常打开,不能正常打开为404

(四)req.headers可以获得响应头内容。
**注意:**是以字典的形式返回内容

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值