三、Requests库网络爬虫实战(学习笔记)
一、实例1:京东商品页面的爬取
1.获取某商品的信息
商品连接:https://item.jd.com/2967929.html
工具:IDLE
过程:
>>>import requests # 加载requests库
>>>r = requests.get("https://item.jd.com/2967929.html") # 通过get方法获取链接内容
>>>r.status_code # 观察返回的状态码的信息
>>>r.encoding #查看编码
# ‘gbk’说明我们从http头部就可以解析出这个页面的编码信息;京东的网站提供了页面信息的相关编码
>>>r.text[:1000]
2.全代码
import requests
url = "https://item.jd.com/2967929.html"
try:
r = requests.get(url)
r.raise_for_status()
r.encoding = r.apparent_encoding
print(r.test[:1000])
except:
print("爬取失败")
3.实操(IDLM)
第一次尝试课程给的连接,会显示这个登陆的页面,以为是因为商品下架,所以换了一个新的链接。发现依然是登陆界面,决定登陆试试,但还是不行。有点蒙了。
二、实例2:亚马逊商品页面的爬取
1.获取某商品的信息
商品连接:https://www.amazon.cn/gp/product/BO1M8L5Z3Y
链接已失效,自己操作时任意选取其他商品
工具:IDLE
过程:
>>>import requests # 加载requests库
>>>r = requests.get("https://www.amazon.cn/gp/product/BO1M8L5Z3Y") # 通过get方法获取链接内容
>>>r.status_code # 观察返回的状态码的信息
>>>r.encoding #查看编码
>>>r.