如何用request库快速爬取百度首页

requests库是用来在python中发出HTTP请求的,它有很多方法最常用的是get方法,接下来我们通过爬取百度首页这么一个简单的实例来操作一下,首先导入requests库,接下来用get方法访问百度首页,然后可以查看返回的状态码,返回的内容,等等内容,注意为了防止乱码一点要把编码设定为utf-8,这就是一个最简单的用requests库进行的爬虫案例了。

import requests
try:
    r=requests.get("https://www.baidu.com")#请求访问网站
    print(r.status_code)#打印状态码200表示正常
    print(r.encoding)#打印编码
    print(r.apparent_encoding)#查看从内容中判断的编码
    r.encoding="utf-8"#赋值
    print(r.text)#查看网页的内容
    print(r.headers)#查看网页的头部内容
except:
    print("失败")

当然并不是所有的网站都能用get方法直接访问,有的网址需要带参数,详见下一篇文章。

  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值