requests库的使用
爬取网页的通用代码框架
提示:以下是本篇文章正文内容,下面案例可供参考
1、idle中如何爬取?
代码如下(示例):
>> import requests
>>> r=requests.get("https://item.jd.com/10027415867924.html")
>>> r.status_code
200
>>> r.encoding
'UTF-8'
>>> r.text[:1000]
2、脚本文件中如何爬取?
代码如下(示例):
import requests
def getHTMLText(url):
try:
r=requests.get(url,timeout=30)
r.raise_for_status()
r.encoding=r.apparent_encoding
print(r.text[:1000])
except:
print("产生异常")
url="https://www.2345.com/?kbox73713266"
getHTMLText(url)