一、需求分析
二、页面分析
-
我们需要在网页源码中找到我们需要获取的信息。所有我们在刷新页面后出现的3个XHR下需找我们需要的信息。
-
依次点开找到最后一个包如图。
-
打开任意一个列表(这里不确定是不是列表暂且这么叫)如图。找到我们所需要爬取的信息。
-
找到我们需要获取的信息之后,我们需要获取这个网页的url,所有这里点击Headers继续观察我们所需要的内容。
-
观察上图我们可以找到所有要的url和对应的请求方式(GET)。然后继续向下找,如图。
-
注意观察这里的信息与网页url之间的关系我们发现,网页的url与Param之间存在对应关系。
三、访问url
- 对url进行相应的修改
- 使用Param
将之前找的Prama复制到程序中,添加相应的引号结果如下:
- 发起请求,获取数据
截取部分运行结果如下:
四、提取json中的数据
运行结果如下:
五、优化设计
- 这里我们只获取了前20个电影的名称和评分,也就是爬取了第一页的数据。
- 我们可以通过修改param字典中的value和使用for循环获取更多的信息。
- 对param进行简单的分析,这里的17代表——科幻,start : 0 从第0个开始,limit:20 一共20个。也就是一页的数据。可以将他们改为20,20.
六、完整的代码如下: