Python爬取高考网大学信息,送给今年的高考学子

最新推荐文章于 2024-06-28 16:44:25 发布

软考大师

最新推荐文章于 2024-06-28 16:44:25 发布

阅读量364

点赞数 2

分类专栏： pyhton 文章标签： python 高考 servlet

本文链接：https://blog.csdn.net/m0_46315547/article/details/139353357

版权

pyhton 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

1、引言

又是一年高考时，你还在为搜集大学信息苦恼吗？
当今社会，信息爆炸，网络数据众多，大数据时代下信息的采集、整理和分析变得尤为重要。在这个背景下，网络爬虫作为一种自动获取网页信息的工具，在各行各业都发挥着重要作用。今天，我们将讨论一个使用Python编写的网络爬虫程序，用于从高考网上获取大学信息并保存到CSV文件的实现方法。

2、技术实现方法

首先，我们导入所需的库：

from DrissionPage import ChromiumPage
import pandas as pd
from tqdm import tqdm
import time

接下来是定义获取信息的函数get_info()，该函数包括页面滚动到底部、定位包含学校信息的div、提取学校信息等步骤。具体代码如下：

def get_info():
    global i
    # 页面滚动到底部，方便查看爬到第几页
    time.sleep(2)
    page.scroll.to_bottom()
    # 定位包含学校信息的div
    divs = page.eles('tag:div@class=school-search_schoolItem__3q7R2')
    # 提取学校信息
    for div in divs:
        # 提取学校名称
        school = div.ele('.school-search_schoolName__1L7pc')
        school_name = school.ele('tag:em')
        # 提取学校城市
        city = div.ele('.school-search_cityName__3LsWN')
        if len(city.texts()) == 2:
            city_level1 = city.texts()[0]
            city_level2 = city.texts()[1]
        elif len(city.texts()) == 1:
            city_level1 = city.texts()[0]
            city_level2 = ""
        else:
            city_level1 = ""
            city_level2 = ""
        # 提取学校标签
        tags = div.ele('.school-search_tags__ZPsHs')
        spans = tags.eles('tag:span')
        spans_list = []
        for span in spans:
            spans_list.append(span.text)

        # 信息存到contents列表
        contents.append([school_name.text, city_level1, city_level2, spans_list])
        # print(school_name.text, city.text, spans_list)
    print("爬取第", i, "页，总计获取到", len(contents), "条大学信息")

    time.sleep(2)

    # 定位下一页，点击下一页
    try:
        next_page = page.ele('. ant-pagination-next')
        next_page.click()
    except:
        pass

接着是爬取数据的主函数craw()，该函数循环调用get_info()函数实现信息的逐页获取，每爬取50页暂停1分钟。代码如下：

def craw():
    global i
    for i in tqdm(range(1, 146)):
        # 每爬50页暂停30秒
        if i % 50 == 0:
            get_info()
            print("暂停30秒")
            time.sleep(30)
        else:
            get_info()

最后，我们定义save_to_csv()函数，用于将爬取到的数据保存到CSV文件中：

def save_to_csv(data):
    # 保存到csv文件
    name = ['school_name', 'city_level1', 'city_level2', 'tags']
    df = pd.DataFrame(columns=name, data=data)
    df.to_csv(f"高考网大学信息{len(data)}条.csv", index=False)
    print("保存完成")

if __name__ == '__main__':
    # contents列表用来存放所有爬取到的大学信息
    contents = []

    page = ChromiumPage()
    page.get('https://www.gaokao.cn/school/search')

    # 声明全局变量i
    i = 0

    craw()

    save_to_csv(contents)