在介绍完requests库和robots协议后,嵩天老师又重点介绍了如何通过BeautifulSoup库进行网页解析和信息提取。这一部分就是在前面内容的基础上,综合运用requests库和BeautifulSoup库的知识,对软科中国大学排名进行定向爬取。
说明:爬虫练习仅为学习,不做商用,如有侵权,烦请联系删除!
目标网页:https://www.shanghairanking.cn/rankings/bcur/2021
爬取目标:爬取上海软科官网提供的中国最好大学排名,并在IDLE页面打印输出大学名称、排名、省市、总分信息
相关库名:requests/BeautifulSoup
目录
1.网页解析
打开上述软科中国大学排名页面,选择最新的2021年排名,页面显示如下: