一、中国大学排名爬虫案例的步骤如下:
步骤1:从网络上获取大学排名网页内容 getHTMLText()
步骤2:提取网页内容中信息到合适的数据结构 fillUnivList()
步骤3:利用数据结构展示并输出结果 printUnivList()
实例代码
import requests
import bs4
from bs4 import BeautifulSoup
def getHTMLText(url):
'''从网络上获取大学排名网页内容'''
try:
r = requests.get(url, timeout=30)
# #如果状态不是200,就会引发HTTPError异常
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return ""
def fillUnivList(ulist, html):
'''提取网页内容中信息到合适的数据结构'''
soup = BeautifulSoup(html, "html.parser")
# 查找html中tbody标签的所有
子标签for tr in soup.find('tbody').children:
if