Requests库网络爬虫实战
案例1:京东商品页面的爬取
某商品链接:https://item.jd.com/100004770263.html
#爬取京东商品页面
import requests
url = 'https://item.jd.com/100004770263.html'
try:
r = requests.get(url)
r.raise_for_status()
r.encoding =r.apparent_encoding
print(r.text[:1000])
except:
print('爬取失败')
tip: 爬取不到可以参考下面亚马逊的代码
案例2:亚马逊商品页面爬取
链接:https://www.amazon.cn/dp/B01LX9MUG2/ref=lp_755654051_1_1?s=photo&ie=UTF8&qid=1594777473&sr=1-1
直接爬取会被网站识别为python的request请求 需要设置request header信息 模拟浏览器访问
import requests
url