-Modest_Proud-
一、爬取网页的通用代码框架
首先,我们使用Requests库进行网页访问的时候,经常用get(),获得url的相关内容。
由于网络连接是有风险的,所以异常处理语句很重要。
理解爬取网页的通用代码框架
import requests ##加载Requests库
def getHTMLText(url):
##定义getHTMLTexl函数
try:
r=requests.get(url,timeout=30)
##设定get函数参数,超时限制30s
r.raise_for_status()
##如果状态不是200,引发HTMLError异常
r.encoding="utf-8"
##更改编码为utf-8格式
return r.text
##返回网页文本内容
except:
return "产生异常"
##返回异常提示
if __name__=="__main__":
##运行模块
url="http://www.baidu.com"
##给url赋值
print(getHTMLText(url))
##打印函数内容
输出结果如下图
如果我们将url=“http://www.baidu.com"改成ur