Python实战:使用DrissionPage库爬取高考网大学信息

上一篇文章,我刚入门 DrissionPage 爬虫库,使用这个库爬取了拉钩网关于 Python 的职位信息。

今天再使用 DrissionPage 爬虫库练习一个案例,爬取高考网大学信息。

本次爬取到2885个大学信息,包含大学名称、所在省、市、大学标签信息。

截图如下:

一、页面分析

目标网页是https://www.gaokao.cn/school/search

获取学校名称、所在省市、学婊标签信息。

二、分析思路

使用 DrissionPage 库打开目标网页

使用元素定位方法,定位到包含学校信息的 div

在 div 内继续定位学校名称、所在省市、标签这个信息

将信息存储到列表

翻页,到下一页重复爬取信息

翻完所有页,使用 pandas 将存有所有信息的列表转为 datafram

使用 pandas 将 datafram 保存为 csv 文件或者 excel 文件,或者写入数据库

三、开始写代码

1、打开网页

from DrissionPage import ChromiumPage
page = ChromiumPage()
page.get('https://www.gaokao.cn/school/search')

2、定位信息

# 定位包含学校信息的div
divs = page.eles('tag:div@class=school-search_schoolItem__3q7R2')
# 提取学校信息
for div in divs:
    # 提取学校名称
    school = div.ele('.school-search_schoolName__1L7pc')
    school_name = school.ele('tag:em')
    # 提取学校城市
    city = div.ele('.school-search_cityName__3LsWN')
    if len(city.texts()) == 2:
        city_level1 = city.texts()[0]
        city_level2 = city.texts()[1]
    elif len(city.texts()) == 1:
        city_level1 = city.texts()[0]
        city_level2 = ""
    else:
        city_level1 = ""
        city_level2 = ""
    # 提取学校标签
    tags = div.ele('.school-search_tags__ZPsHs')
    spans = tags.eles('tag:span')
    spans_list = []
    for span in spans:
        spans_list.append(span.text)

3、存储信息

# contents列表用来存放所有爬取到的大学信息
contents = []
# 信息存到contents列表
contents.append([school_name.text, city_level1, city_level2, spans_list])
# print(school_name.text, city_level1, city_level2, spans_list)

4、翻页

# 定位下一页,点击下一页
try:
    next_page = page.ele('. ant-pagination-next')
    next_page.click()
except:
    pass

5、滑动页面到底部

# 页面滚动到底部,方便查看爬到第几页
time.sleep(2)
page.scroll.to_bottom()

6、反爬措施

在编写爬虫代码时,要考虑反爬措施。不然就会遇到下面这种情况,服务器直接不给你返回数据了。

我设置的是每爬 1 次都暂停几秒,每爬 50 次暂停 1 分钟。

for i in tqdm(range(1, 146)):
    # 每爬50页暂停1分钟
    if i % 50 == 0:
        get_info()
        print("暂停1分钟")
        time.sleep(60)
    else:
        get_info()

7、保存数据到csv文件

import pandas as pd
def save_to_csv(data):
    # 保存到csv文件
    name = ['school_name', 'city_level1', 'city_level2', 'tags']
    df = pd.DataFrame(columns=name, data=data)
    df.to_csv(f"高考网大学信息{len(data)}条.csv", index=False)
    print("保存完成")

8、使用tqdm库显示进度

from tqdm import tqdm
for i in tqdm(range(1, 146)):
    # 每爬50页暂停1分钟
    if i % 50 == 0:
        get_info()
        print("暂停1分钟")
        time.sleep(60)
    else:
        get_info()

四、完整代码

通过定义函数,优化代码,整合成一个完整的代码。完整代码如下:

from DrissionPage import ChromiumPage
import pandas as pd
from tqdm import tqdm
import time


def get_info():
    global i
    # 页面滚动到底部,方便查看爬到第几页
    time.sleep(2)
    page.scroll.to_bottom()
    # 定位包含学校信息的div
    divs = page.eles('tag:div@class=school-search_schoolItem__3q7R2')
    # 提取学校信息
    for div in divs:
        # 提取学校名称
        school = div.ele('.school-search_schoolName__1L7pc')
        school_name = school.ele('tag:em')
        # 提取学校城市
        city = div.ele('.school-search_cityName__3LsWN')
        if len(city.texts()) == 2:
            city_level1 = city.texts()[0]
            city_level2 = city.texts()[1]
        elif len(city.texts()) == 1:
            city_level1 = city.texts()[0]
            city_level2 = ""
        else:
            city_level1 = ""
            city_level2 = ""
        # 提取学校标签
        tags = div.ele('.school-search_tags__ZPsHs')
        spans = tags.eles('tag:span')
        spans_list = []
        for span in spans:
            spans_list.append(span.text)

        # 信息存到contents列表
        contents.append([school_name.text, city_level1, city_level2, spans_list])
        # print(school_name.text, city.text, spans_list)
    print("爬取第", i, "页,总计获取到", len(contents), "条大学信息")

    time.sleep(2)

    # 定位下一页,点击下一页
    try:
        next_page = page.ele('. ant-pagination-next')
        next_page.click()
    except:
        pass


def craw():
    global i
    for i in tqdm(range(1, 146)):
        # 每爬50页暂停1分钟
        if i % 50 == 0:
            get_info()
            print("暂停1分钟")
            time.sleep(60)
        else:
            get_info()


def save_to_csv(data):
    # 保存到csv文件
    name = ['school_name', 'city_level1', 'city_level2', 'tags']
    df = pd.DataFrame(columns=name, data=data)
    df.to_csv(f"高考网大学信息{len(data)}条.csv", index=False)
    print("保存完成")


if __name__ == '__main__':
    # contents列表用来存放所有爬取到的大学信息
    contents = []

    page = ChromiumPage()
    page.get('https://www.gaokao.cn/school/search')

    # 声明全局变量i
    i = 0

    craw()

    save_to_csv(contents)

Pycharm 控制台输出如下:

五、数据分析

使用 excel 表自带的数据透视表功能,分析每个省的学校数量。

此外,标签字段含有的信息量也比较丰富,例如其中一个学校的标签是[‘普通本科’, ‘综合类’, ‘公办’, ‘985’, ‘211’, ‘双一流’, ‘强基计划’],也可以对标签字段进行数据分析。本文就不展开了。

六、总结

DrissionPage 库使用起来确实比 Selenium 库方便很多,再也回不去啦。哈哈哈。

本文首发在“程序员coding”公众号,欢迎关注与我一起交流学习。

  • 16
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求实现,如Python中的Requests。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据、NoSQL数据、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值