python-(6-3-3)爬虫---requests入门(对参数封装)

一 需求

爬取豆瓣电影的“纪录片”的电影信息数据

二 分析

老规矩,先在网页的“检查”中提取我们需要的信息

如下图所示。在“纪录片”那一页面,选择"network"----“XHR”----“preview”。
我们需要在3个文件中选择,罗列出如图页面电影数据的那个文件。

在这里插入图片描述
通过点开1-19数字前面的三角形,我们可以查看到每部电影的具体信息,这就是我们要爬取的数据内容。

然后从“preview"切换到”headers",可以得到URL与访问网站请求的方式get,于是明白了在下面的代码中应该是requests.get()

在这里插入图片描述

不难发现,在代码中赋值给URL变量的内容显得十分冗长(问号后面的内容都是参数),一方面笔者希望将其缩短;
另一方面,由于把网页下拉,会出现新的电影信息,我们为了获取更多更新的电影数据,也需要通过修改参数的方式,从而爬取新的数据。

所以我们将页面下拉,找到其他代码编写时需要的信息。

在这里插入图片描述

提前剧透一下,由于网站设立了反爬机制,所以我们需要User-Agent进行伪装。

而最下面的一系列参数就是我们需要的信息。

另外,这些参数会以字典的形式体现,因此需要将其全部加上双引号括起来,所以要在pycharm中如下图设置。将圈中的内容打勾后(意思是,单引号或双引号会悬浮环绕在周围),我们将某一段字符选中,直接打出双引号或者单引号符号,就可以为该段字符加上单引号或双引号。

在这里插入图片描述

三 代码

import requests

# 找到的url
url = "https://movie.douban.com/j/chart/top_list"

# 要封装的参数
# 原本url的问号后面的都是参数,我们将这部分内容封装成下面的参数
param = {
    "type": "1",
    "interval_id": "100:90",
    "action": "",
    "start": "0",
    "limit": "20"
}

# 伪装成正常浏览器用户访问
headers = {
    "User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Mobile Safari/537.36"
}

# 发送的get请求,封装参数,并伪装成浏览器
response = requests.get(url=url,params=param,headers=headers)

# 将服务器返回的数据直接返回成json格式
print(response.json())

# 关闭访问的链接,防止以后访问其他网页报错
response.close()

四 补充说明

当我们把网页内容往下拉取,希望看到更多的电影资源时,我们代码中封装的参数会发生改变。经过对比,只有start变化。所以如果想看到更多的电影信息,只需要改变start后面的值即可。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值