image.png
我们需要打开网页源代码,查看此网页的信息是写在html代码中,还是由js文件动态生成的,如果是后者,那么我们目前仅仅采用requests和BeautifulSoup还很难爬取到排名的信息。
查看网页源代码,我们可以发现,排名信息是写在html页面中的,这时候我们利用BeautifulSoup库就可以对信息进行提取
image.png
爬虫实现的目标:
输入:大学排名URL链接
输出:大学排名信息的屏幕输出(排名,大学名称,总分)
技术路线:requests‐bs4
定向爬虫:仅对输入URL进行爬取,不扩展爬取
分析
首先,我们要获取到这个网页的源码,我们可以利用requests库抓取到该网页的源码信息。然后利用bs4库将网页中大学排名的信息提取出来,输入到数据结构中,最后将数据结构中存储的数据输出
主要就是一下三步:
步骤1:从网络上获取大学排名网页内容
步骤2:提取网页内容中信息到合适的数据结构
步骤3:利用数据结构展示并输出结果
程序设计
getHTMLText()
fillUni