requests库爬虫简介

本文介绍了Python的requests库,重点讲解了get()函数用于获取网页内容,返回的response对象包含text、content属性,以及如何处理编码和保存网页源码。同时提到了status_code用于检查请求状态,以及json()方法解析JSON数据。
摘要由CSDN通过智能技术生成

requests中的网页请求函数

  1. 函数简介

其中,最常用的是get()函数,用于获取网页,返回一个response对象。

  1. 常见的几种异常

  1. 常用的response对象的属性

其中,text属性返回的是字符串,content返回的是二进制,一般用于图片或者PDF的储存。

encoding属性返回了页面源代码的编码方式,可以通过对其赋值,以便正常处理中文字符。一般写成:

r.encoding = r.apparent_encoding
  1. 将抓取的源代码写入文件中,以便后续处理

#完整代码
import requests
r = requests.get('https://www.sdu.edu.cn')
if r.status_code == 200:
    with open('example.txt', 'w', encoding = 'utf-8') as f:
        f.write(r.text)
else:
    print('网页抓取失败!')

如果抓取的是图片,需要用二进制写入

with open('nexample_pic.jpg','wb') as f:
    f.write(p.content)
  1. 常见的respons对象的方法

其中,json()解析JSON格式的数据,方便处理

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

西西弗斯推石头

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值