1、引言
又是一年高考时,你还在为搜集大学信息苦恼吗?
当今社会,信息爆炸,网络数据众多,大数据时代下信息的采集、整理和分析变得尤为重要。在这个背景下,网络爬虫作为一种自动获取网页信息的工具,在各行各业都发挥着重要作用。今天,我们将讨论一个使用Python编写的网络爬虫程序,用于从高考网上获取大学信息并保存到CSV文件的实现方法。
2、技术实现方法
首先,我们导入所需的库:
from DrissionPage import ChromiumPage
import pandas as pd
from tqdm import tqdm
import time
接下来是定义获取信息的函数get_info()
,该函数包括页面滚动到底部、定位包含学校信息的div、提取学校信息等步骤。具体代码如下:
def get_info():
global i
# 页面滚动到底部,方便查看爬到第几页
time.sleep(2)
page.scroll.to_bottom()
# 定位包含学校信息的div
divs = page.eles('tag:div@class=school-search_schoolItem__3q7R2')
# 提取学校信息
for div in divs:
# 提取学校名称
school = div.ele('.school-search_schoolName__1L7pc')
school_name = school.ele('tag:em')
# 提取学校城市
city = div.ele('.school-search_cityName__3LsWN')
if len(city.texts()) == 2:
city_level1 = city.texts()[0]
city_level2 = city.texts()[1]
elif len(city.texts()) == 1:
city_level1 = city.texts()[0]
city_level2 = ""
else:
city_level1 = ""
city_level2 = ""
# 提取学校标签
tags = div.ele('.school-search_tags__ZPsHs')
spans = tags.eles('tag:span')
spans_list = []
for span in spans:
spans_list.append(span.text)
# 信息存到contents列表
contents.append([school_name.text, city_level1, city_level2, spans_list])
# print(school_name.text, city.text, spans_list)
print("爬取第", i, "页,总计获取到", len(contents), "条大学信息")
time.sleep(2)
# 定位下一页,点击下一页
try:
next_page = page.ele('. ant-pagination-next')
next_page.click()
except:
pass
接着是爬取数据的主函数craw()
,该函数循环调用get_info()
函数实现信息的逐页获取,每爬取50页暂停1分钟。代码如下:
def craw():
global i
for i in tqdm(range(1, 146)):
# 每爬50页暂停30秒
if i % 50 == 0:
get_info()
print("暂停30秒")
time.sleep(30)
else:
get_info()
最后,我们定义save_to_csv()
函数,用于将爬取到的数据保存到CSV文件中:
def save_to_csv(data):
# 保存到csv文件
name = ['school_name', 'city_level1', 'city_level2', 'tags']
df = pd.DataFrame(columns=name, data=data)
df.to_csv(f"高考网大学信息{len(data)}条.csv", index=False)
print("保存完成")
if __name__ == '__main__':
# contents列表用来存放所有爬取到的大学信息
contents = []
page = ChromiumPage()
page.get('https://www.gaokao.cn/school/search')
# 声明全局变量i
i = 0
craw()
save_to_csv(contents)
以上便是我们针对高考网大学信息爬取程序的技术实现方法。通过这段代码,我们可以方便地获取网页中的大学信息,并将其保存为CSV文件,为进一步的数据分析和利用提供了便利。
希望这篇文章能够为报考大学的莘莘学子带来便利!