如何用request库快速爬取百度首页

最新推荐文章于 2024-07-29 21:31:04 发布

静谧蓝莲

最新推荐文章于 2024-07-29 21:31:04 发布

阅读量3.3k

点赞数 3

分类专栏：爬虫入门文章标签： python

本文链接：https://blog.csdn.net/tb512934589/article/details/120765697

版权

爬虫入门专栏收录该内容

1 篇文章 1 订阅

订阅专栏

requests库是用来在python中发出HTTP请求的，它有很多方法最常用的是get方法，接下来我们通过爬取百度首页这么一个简单的实例来操作一下，首先导入requests库，接下来用get方法访问百度首页，然后可以查看返回的状态码，返回的内容，等等内容，注意为了防止乱码一点要把编码设定为utf-8，这就是一个最简单的用requests库进行的爬虫案例了。

import requests
try:
    r=requests.get("https://www.baidu.com")#请求访问网站
    print(r.status_code)#打印状态码200表示正常
    print(r.encoding)#打印编码
    print(r.apparent_encoding)#查看从内容中判断的编码
    r.encoding="utf-8"#赋值
    print(r.text)#查看网页的内容
    print(r.headers)#查看网页的头部内容
except:
    print("失败")

当然并不是所有的网站都能用get方法直接访问，有的网址需要带参数，详见下一篇文章。

静谧蓝莲

关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
如何用request库快速爬取百度首页

requests库是用来在python中发出HTTP请求的，它有很多方法最常用的是get方法，接下来我们通过爬取百度首页这么一个简单的实例来操作一下，首先导入requests库，接下来用get方法访问百度首页，然后可以查看返回的状态码，返回的内容，等等内容，注意为了防止乱码一点要把编码设定为utf-8，这就是一个最简单的用requests库进行的爬虫案例了。import requeststry: r=requests.get("https://www.baidu.com")#请求访问网站
复制链接

扫一扫