欢迎来到python爬虫大讲堂,现在开始你的爬虫旅程吧!
静态网页
在网站中,纯HTML格式的网页被称为静态网页,在我们的爬虫中,静态网页较容易获取,因为页面上的内容都在HTML代码上,关于静态网页,我们可以使用requests库,之前我们已经安装过requests库了,所以我们直接开始:
获取相应内容
import requests
r=requests.get('https://blog.csdn.net/weixin_42183408')
print("文本编码:",r.encoding)
print("响应状态码:",r.status_code)
print("字符串方式的响应体:",r.text)
你会得到这样:
接下来我们来看看说明:
- r.text:服务器响应内容,就是HTML编码
- r.encoding:服务器的文本编码
- r.status_code:响应的状态码,如果是200则代表访问成功
- r.content:字节方式的响应体
定制requests
定制请求头
请求头headers提供了信息,对于爬虫来说,一个程序几