国内大学排名如何?用Python爬取中国大学排名准备阶段需要的库robots协议上代码代码框架*获取url信息*解析信息*输出数据*主函数结果
准备阶段
新手入门,不喜勿喷,这篇文章的内容其实也是在中国大学MOOC 北理工 嵩天老师的课程基础上完成。由于大学排名有众多不同的影响因素,根据指标不同,有很多排名,我们就选取最好大学网的排名。
需要的库import requests
from bs4 import BeautifulSoup
import bs4
robots协议
如下图,显然,这个网站没有robots协议,也就是说,我们可以认为它是允许所有的爬虫进行爬取任何内容的。
上代码
代码框架def getHTMLtext(url):
try:
return r.text
except:
return ""
def fillunivlist(ulist,html):
return ""
def printlist(ulist,num):
return ""
def main():
return ""
main()
大概就是这样,我们定义四个函数。
其大体作用分别为获取url信息;解析信息并填写在列表中;输出信息;提供url并执行函数……
*获取url信息def getHTMLtext(url):
try:
r