利用requests库进行网络爬虫的一般逻辑
import requests
def getHTMLText(url):
try:
r=requests.get(url,timeout=30)
r.raise_for_status()#如果状态不是200,引发HTTPError异常
r.encoding=r.apparent_encoding
return r.text
except:
return "产生异常"
if _name_='_main_':
url="http://www.baidu.com"
print(getHTMLText(url))
其中,语句
if _name_='_main_':
可以省略。因为有时加上这条语句之后程序反而有bug,程序运行产生异常。