功能描述:
定向爬取中国大学排名网页的排名信息,包括学校名称,学校排名,所在省市
技术路线:
requests——bs4(BeautifulSoup)
核心操作:
1.熬制一锅汤
soup = BeautifulSoup(html,“html.parser”)
2. soup.find(‘tbody’).children:
在html页面中发现大学排名信息都存在:tbody标签下的名为’td’的tr标签中。找出包含所有tbody下的tr标签
3. 用isinstance()判断类型:
tr标签有的是Tag类型,有的不是,排名信息只存在Tag类型中,,留下Tag类型的tr标
4. 中文对齐问题
使用format函数搭配chr(12288)进行对齐操作
全部程序
import bs4
import requests
from bs4 import BeautifulSoup
def getHTMLTEXT(url):
"""通过最好大学排名网站url获得网页Html信息"""
try:
r = requests.get(url)
r.raise_for_status()
r.encoding = r.apparent_encoding
print(</