使用selenium自动化测试工具爬取高考相关院校专业招生分数线及排名情况

最新推荐文章于 2023-10-19 11:59:09 发布

栀椩

最新推荐文章于 2023-10-19 11:59:09 发布

阅读量2.1w

点赞数

分类专栏：算法、QT开发及web开发等学习笔记文章标签：测试工具 selenium 自动化

本文链接：https://blog.csdn.net/u012848304/article/details/125499370

版权

算法、QT开发及web开发等学习笔记专栏收录该内容

25 篇文章 0 订阅

订阅专栏

随着高考分数公布，填报大学和专业成了各位家长最重要的事情，这两天有好几位亲戚朋友咨询专业填报的事情，发现了一个网站内容不错，提供了各个学校各个专业的最低分数线和最低录取名次，网站链接在这里，这个就是计算机类专业在浙江招生的情况，专业可以换掉。
在这里插入图片描述
这个页面的内容还是很简单的，但是他的分页（不同年份）通过get请求没法体现，应该是用前后端分离的模式开发的，所以通过网页请求来爬虫可能不太容易实现，所以使用了selenium进行自动化提取，并自动化跳转页面。
代码如下：

from selenium import webdriver
import time
import pandas as pd
from selenium.webdriver.common.keys import Keys

driver = webdriver.Chrome(r'C:\Users\HP\Downloads\chromedriver_win32\chromedriver.exe')
#time.sleep(5)
driver.get("https://www.zjut.cc/zhuanye/fsx-0809-33.html") 
# time.sleep(15)
# url = driver.find_element_by_xpath("/html/body/div/div/section/main/div/div[4]/div/div[1]/div/div/div[3]/table/tbody/tr[1]")

# url = driver.find_element_by_xpath("/html/body/div/div/section/main/div/div[4]/div/div[1]/div/div/div[3]/table/tbody/tr[1]/td[2]/div")
# scqy = driver.find_element_by_xpath("/html/body/div/div/section/main/div/div[4]/div/div[1]/div/div/div[3]/table/tbody/tr[1]/td[2]/div").text
vehicles = []
res = []
for j in range(4):
    schools = []
    if j < 2:
        for i in range(100):
            series = driver.find_element_by_xpath("/html/body/div[3]/div[1]/div/div/div[1]/div/div[2]/table/tbody/tr[{}]/th".format(1+i)).text
            school_name = driver.find_element_by_xpath("/html/body/div[3]/div[1]/div/div/div[1]/div/div[2]/table/tbody/tr[{}]/td[1]/a".format(1+i)).text
            major = driver.find_element_by_xpath('//*[@id="pills-2021"]/div/div[2]/table/tbody/tr[{}]/td[1]/small[2]'.format(1+i)).text
            min_score = driver.find_element_by_xpath("/html/body/div[3]/div[1]/div/div/div[1]/div/div[2]/table/tbody/tr[{}]/td[2]".format(1+i)).text
            min_rank = driver.find_element_by_xpath("/html/body/div[3]/div[1]/div/div/div[1]/div/div[2]/table/tbody/tr[{}]/td[3]".format(1+i)).text
            plan = driver.find_element_by_xpath("/html/body/div[3]/div[1]/div/div/div[1]/div/div[2]/table/tbody/tr[{}]/td[4]".format(1+i)).text
            schools.append([series, school_name, major, min_score, min_rank, plan])
    else:
        for i in range(100):
            series = driver.find_element_by_xpath("/html/body/div[3]/div[1]/div/div/div[3]/div/div[2]/table/tbody/tr[{}]/th".format(1+i)).text
            school_name = driver.find_element_by_xpath("/html/body/div[3]/div[1]/div/div/div[3]/div/div[2]/table/tbody/tr[{}]/td[1]/a".format(1+i)).text
            major = driver.find_element_by_xpath('//*[@id="pills-2021"]/div/div[2]/table/tbody/tr[{}]/td[1]/small[2]'.format(1+i)).text
            min_score = driver.find_element_by_xpath("/html/body/div[3]/div[1]/div/div/div[3]/div/div[2]/table/tbody/tr[{}]/td[2]".format(1+i)).text
            min_rank = driver.find_element_by_xpath("/html/body/div[3]/div[1]/div/div/div[3]/div/div[2]/table/tbody/tr[{}]/td[3]".format(1+i)).text
            plan = driver.find_element_by_xpath("/html/body/div[3]/div[1]/div/div/div[3]/div/div[2]/table/tbody/tr[{}]/td[4]".format(1+i)).text
            schools.append([series, school_name, major, min_score, min_rank, plan])
    df = pd.DataFrame(schools, columns=['排序', '院校', '专业', '最低分', '最低排名', '计划招录人数'])
    
    df.to_excel("%d.xlsx" % (-j + 2021), index=False)
    # res.append(schools)
    
    a = driver.find_element_by_xpath("/html/body/div[3]/div[1]/div/ul/li[{}]/a".format(1+j))
    driver.execute_script("arguments[0].click();", a)
    
    time.sleep(3)

可以看出来，绝大多数用的xpath，但也有一些细节需要解释，等空了再来解释。

栀椩

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
使用selenium自动化测试工具爬取高考相关院校专业招生分数线及排名情况

随着高考分数公布，填报大学和专业成了各位家长最重要的事情，这两天有好几位亲戚朋友咨询专业填报的事情，发现了一个网站内容不错，提供了各个学校各个专业的最低分数线和最低录取名次，网站链接在这里，这个就是计算机类专业在浙江招生的情况，专业可以换掉。这个页面的内容还是很简单的，但是他的分页（不同年份）通过get请求没法体现，应该是用前后端分离的模式开发的，所以通过网页请求来爬虫可能不太容易实现，所以使用了selenium进行自动化提取，并自动化跳转页面。代码如下：可以看出来，绝大多数用的xpath，但也有一
复制链接

扫一扫