Python爬取——目前考研招生学校的专业信息及考试范围

置顶

清梦Cryo

已于 2024-02-29 17:26:21 修改

阅读量3.2k

点赞数 6

文章标签： python

于 2022-05-28 18:44:26 首次发布

本文链接：https://blog.csdn.net/MAITTA/article/details/125020961

版权

1.需要爬取的信息：全部的省份，全部的学校以及其全部专业的院系所和研究方向，以及招生人数和考试科目。
2.使用的库：from bs4 import BeautifulSoup

import requests

import re

from openpyxl import Workbook

3.期望结果：

简介：

该代码是逐步选择所在省市和学科类别，爬取到了招生单位中每个学校的链接。再通过该学校链接获得其考试范围的链接，最后爬取考试范围的链接中包含的我们所需要的信息，信息包括：院系所、专业、研究方向、拟招人数以及考试范围

查找方法：正则表达式

findSchool = re.compile(r'<td class="zsml-summary">(.*)</td>')  # 通过正则表达式查找学校和专业信息
findLink1 = re.compile(r'<a href="(.*?)" target="_blank">')   #寻找指定学科类别的学校链接
findLink2 = re.compile(r'<a href="(.*?)" target="_blank">')  # 通过正则表达式查找该学校全部的考试范围链接
findsubject