教程来自:【Python网络爬虫与信息提取】.MOOC. 北京理工大学
目标:爬取最好大学网前50名大学
代码如下:
import requests
from bs4 import BeautifulSoup
import bs4
def getHTMLText(url):
try:
r = requests.get(url,timeout = 30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
print("产生异常")
return ""