Python 爬取中国研招网招生简章

最新推荐文章于 2024-04-07 18:13:52 发布

我算是程序猿

最新推荐文章于 2024-04-07 18:13:52 发布

阅读量529

点赞数 5

文章标签： python 开发语言

本文链接：https://blog.csdn.net/Trb201013/article/details/136254571

版权

本文介绍了如何使用Python的requests和BeautifulSoup库爬取中国研招网的研究生招生简章数据，包括GET请求、页面解析、数据结构化和存储至Excel的过程。

摘要由CSDN通过智能技术生成

观察网页

观察网页：通过谷歌浏览器进入中国研招网招生简章界面后，右键点击“检查”，点击“网络”后刷新页面；点击“响应”，如图所示

在”响应“中观察到，我们需要的数据在这里，说明这是一个静态网页。

请求数据

通过查看“标头”中显示网页的请求方式是GET请求。说明可以用requests库请求数据。

引入第三方库

import requests   from bs4 import BeautifulSoup   import pandas as pd   items=[]#定义一个空列表，为后期数据的存储做好准备

原网页虽有23页，但实际有内容的是前三页，其余都是空白页面，故共计3页的信息。此外，观察不同页码的网址，可以发现规律，第{i}页：https://yz.chsi.com.cn/kyzx/zsjz/?start={i-1}*80 所以我们可以引用For循环语句进行爬取3页内容，设置相关代码如下：

for i in range(1,4):#中国高校招生简章共3页             url='https://yz.chsi.com.cn/kyzx/zsjz/?start={i-1}*80'           r=requests.get(url)           r.encoding=r.apparent_encoding #防止出现乱码           text=r.text

解析数据

利用BeautifulSoup进行解析数据。通过检查网页元素可以发现，所有院校的招生简章都存储在class="news-list"的"ul"标签下。

故此段代码如下：

soup = BeautifulSoup(text,'html.parser')    li_list=soup.find('ul',class_="news-list").find_all('li')#获取动态   for li in li_list:          title=li.find('a').text#获取学校标题               href=li.find('a').get('href')[1:]             child_url='https://yz.chsi.com.cn/'+href #获取高校招生简章的链接       time=li.find('span').text# 获取公告时间              item=[title,time,child_url]               items.append(item)#将爬取的所有文件添加到item的总列表中

储存数据

`df=pd.DataFrame(items,columns=['标题','发布时间','网页链接'])    df.to_excel('全国高校研究生招生简章.xlsx')`

全套代码及结果

import requests   from bs4 import BeautifulSoup   import pandas as pd   items=[]#定义一个空列表   #请求数据    for i in range(1,4):#中国高校招生简章共3页       url='https://yz.chsi.com.cn/kyzx/zsjz/?start={i-1}*80'          r=requests.get(url)           r.encoding=r.apparent_encoding #防止出现乱码         text=r.text   #解析数据       soup = BeautifulSoup(text,'html.parser')       li_list=soup.find('ul',class_="news-list").find_all('li')#获取动态       for li in li_list:           title=li.find('a').text#获取学校标题           href=li.find('a').get('href')[1:]           child_url='https://yz.chsi.com.cn/'+href #获取高校招生简章的链接           time=li.find('span').text# 获取公告时间           item=[title,time,child_url]           items.append(item)#将爬取的所有文件添加到item的总列表中               #保存数据   df=pd.DataFrame(items,columns=['标题','发布时间','网页链接'])   df.to_excel('全国高校研究生招生简章.xlsx')