【python 爬虫】requests模块

概览

requests可以模拟浏览器发起HTTP或HTTPS协议的网络请求,从而获取网页源代码

发起网络请求的主要使用方法是requests中的get()和post(),其中get()的功能是发起获取网页的请求,post()是向服务器传送数据、常用来模拟用户登录。

1、获取静态网页的源代码

打开百度网页,并打印网页源代码

import requests as re

rp = re.get(url='https://www.baidu.com')
print(rp.text)

运行结果

 2、获取动态加载的数据

动态网页是服务器返回的一个网页模板,数据通过Ajax或者其他方式填充的模板里,需要的数据一般都在服务器返回的JSON格式数据包里

动态和静态的区分:如果网页随着浏览器的滚动条下拉会有更多数据加载出来,那这种就是动态的

 

import requests as re

header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'}

url='https://movie.douban.com/j/chart/top_list'
params={'type':'25','interval_id':'100:900','action':'','start':'0','limit':'1'}
rp = re.get(url=url,headers=header,params=params)

r=rp.json()
print(r)

 

 3、获取图片

获取源代码时,先用get()获取响应对象,再用响应对象的text属性提取网页源代码。但是如果要获取图片,也是先用get()获取响应对象,但是不能用text属性提取,应该用content属性提取图片的二进制字节码。

import requests
url = ''

response = requests.get(url = url)
content = response.content

with open('图片.jpg', 'wb') as fp:
    fp.write(content)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 在使用 Pythonrequests 库发起 HTTP 请求时,可以通过调用响应对象的 text 属性来获取响应的文本内容。例如: ```python import requests response = requests.get('https://www.example.com') print(response.text) ``` 上述代码会向 https://www.example.com 发起一个 GET 请求,并将响应的文本内容打印输出。需要注意的是,响应的文本内容可能会根据响应头中的 Content-Type 属性而有所不同,如 HTML 页面、JSON 数据等。在解析响应内容时,我们需要对响应类型进行判断,以便正确地处理响应内容。 ### 回答2: Python爬虫库中的requests库是一个非常常用的库,它提供了简洁而丰富的接口,用于发送HTTP请求和处理响应。其中,requests库中的text属性是用来获取响应的内容的。 在使用requests库发送请求后,可以通过response对象的text属性来获取服务器返回的响应内容。text属性返回的是Unicode型的内容,也就是网页的HTML源代码或者是接口的返回数据。 使用text属性可以很方便地获取网页的内容,然后进行解析和提取所需的数据。可以将获取到的内容保存到本地文件中,或者使用正则表达式或解析库(如BeautifulSoup)进行进一步的处理。 需要注意的是,text属性获取的内容可能会出现乱码或编码问题。对于出现乱码的情况,可以通过设置response对象的encoding属性来进行解决。另外,如果响应的内容不是文本类型(如图片、音频、视频等),那么使用text属性获取的结果可能是乱码或者不正确的,此时可以使用content属性获取二进制数据。 总之,requests库中的text属性是获取请求响应内容的一个重要属性,它为我们进行网页爬取数据提取提供了便利。 ### 回答3: Python 爬虫中使用 requests 库的 text 属性是用来获取请求返回的内容。具体而言,文档中 text 属性返回的是以 Unicode 编码的文本内容,通常是 HTML 页面的内容。在使用 requests 库发送请求后,可以通过调用 text 属性来获取正文内容。 使用 text 属性的方法如下: 1. 导入 requests 模块,使用 `import requests`。 2. 发送请求并获取响应,例如使用 `response = requests.get(url)` 方法。 3. 调用获取的响应对象的 text 属性,例如使用 `response.text`。 这样就可以获取到请求返回的内容。可以通过打印 text 的结果来查看爬取到的网页内容。需要注意的是,text 属性返回的是以 Unicode 编码的文本内容,如果要保存到文件或进行其他操作,可能需要进行一些编码或解码的处理。 总之,Python 爬虫中的 requests 库的 text 属性是用来获取请求返回的内容。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值