python作业爬取xxx大学排行

LLGululu

已于 2022-09-22 17:00:36 修改

阅读量1.9k

点赞数 6

分类专栏：爬虫文章标签： python selenium 爬虫

于 2022-09-20 14:16:15 首次发布

本文链接：https://blog.csdn.net/m0_57979876/article/details/126951133

版权

爬虫专栏收录该内容

5 篇文章 0 订阅

订阅专栏

python作业爬取xxx大学排名榜单，python-selenium爬虫解决（本文章仅学习，网站数据也是公开的）

文章目录

前言

python作业爬取xx大学排行榜数据，老师给你的教程是非常久远的教程，你会发现与现在的网站有所差别，特别是在浏览器开发者工具中抓包xhr文件，已经找不到榜单数据文件了。本文章主要介绍用python-selenium-webdriver 实现对网页榜单数据的抓取。

代码已经上传我的 gitee库可自行下载使用。

一、分析

进入网页打开开发者工具，元素检查自己需要的数据 ‘清华大学’，查看它的元素代码，如下：

 class="name-cn" data-v-b80b4d60="">清华大学 </a>

类似检查所有数据的元素，进行对比，发现其相同类的元素头一致，这样后续代码可以用re提取。

为避免每一页的数据对应元素不一致，检查第二页元素 ‘大连理工大学’ ，如下：

 href="/institution/dalian-university-of-technology" class="name-cn">大连理工大学 </a>

发现与第一页元素头不一致，返回第一页再次查看‘清华大学’，如下：

 href="/institution/tsinghua-university" class="name-cn">清华大学 </a>

发现数据的元素又一致了，后续页面也一致，故在使用python-selenium爬虫时，进入网页先进入第二页，再返回第一页，使其页面数据对应元素一致。

所有数据对应网页代码元素如下：
经过观察发现大学级别有些学校没有，故在爬虫过程中，没有的就更改为无，方便后续写入表。

# 大学名称
<a data-v-b80b4d60="" href="/institution/tsinghua-university" class="name-cn">清华大学 </a>
# 英文名称
<a data-v-f9104fdc="" href="/institution/tsinghua-university" class="name-en">Tsinghua University </a>
# 大学级别
<p data-v-3fe7d390="" class="tags">双一流/985/211</p>
# 学校所在省份
<td data-v-3fe7d390="" class="">
            北京
            <!----></td>
# 学校类型
<td data-v-3fe7d390="" class="">
            综合
            <!----></td>
# 总分
<td data-v-3fe7d390="" class="">
            999.4
          </td>
# 办学层次
<td data-v-3fe7d390="" class="">
                    37.6
                </td>

因为需要榜单全部数据，所以要把所有页数里面的数据全部提取出来。需要用python-selenium模拟翻页，后又经发现，在一些页中的下一页按钮的xpath地址（xpath是用来定位按钮在页面什么位置）会有所变化，下一页按钮和xpath内容如下：

下一页按钮 xpath 地址变更
1-3:    //*[@id="content-box"]/ul/li[9]/a
4:      //*[@id="content-box"]/ul/li[10]/a
5-16:   //*[@id="content-box"]/ul/li[11]/a
17：    //*[@id="content-box"]/ul/li[10]/a
18：    //*[@id="content-box"]/ul/li[9]/a
19：    //*[@id="content-box"]/ul/li[9]/a
20：    //*[@id="content-box"]/ul/li[9]/a