通用代码框架
Python网络爬虫与信息提取-北理工 嵩天(大学mooc)
本课B站版
requests模块提供了六种报错格式,分别是
requests.ConnectionError
网络连接错误(DNS,拒绝连接)
requests.HTTPError
HTTP错误
requests.URLRequired
URL缺失异常
requests.TooManyRedirects
超过最大重定向次数
requests.ConnectionError
连接服务器超时
requests.Timeout
请求URL超时
其中还有一个侦测status状态的语句
r.raise_for_status
不是200,产生异常requests.HTTPError
通用代码模块便是基于此进行的
def getHTMLText(url):
try:
r = requests.get(url,timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return "Error"
if __name__ == "__main__":
url = "http://www.baidu.com"
print(getHTMLText(url))
运行后,如果没有错误,会显示和之前同样的信息,但是如果报错,就可以显示Error