1.需要爬取的信息:全部的省份,全部的学校以及其全部专业的院系所和研究方向,以及招生人数和考试科目。
2.使用的库:from bs4 import BeautifulSoup
import requests
import re
from openpyxl import Workbook
3.期望结果:
简介:
该代码是逐步选择所在省市和学科类别,爬取到了招生单位中每个学校的链接。再通过该学校链接获得其考试范围的链接,最后爬取考试范围的链接中包含的我们所需要的信息,信息包括:院系所、专业、研究方向、拟招人数以及考试范围
查找方法:正则表达式
findSchool = re.compile(r'<td class="zsml-summary">(.*)</td>') # 通过正则表达式查找学校和专业信息 findLink1 = re.compile(r'<a href="(.*?)" target="_blank">') #寻找指定学科类别的学校链接 findLink2 = re.compile(r'<a href="(.*?)" target="_blank">') # 通过正则表达式查找该学校全部的考试范围链接 findsubject