三、Requests库网络爬虫实战(学习笔记）

最新推荐文章于 2024-07-31 17:43:30 发布

上野敬芜

最新推荐文章于 2024-07-31 17:43:30 发布

阅读量1.1k

点赞数 17

分类专栏： Python网络爬虫与信息提取

本文链接：https://blog.csdn.net/Shangyejingwu/article/details/113695037

版权

本文是一篇关于使用Requests库进行网络爬虫实战的学习笔记，包括京东、亚马逊商品页面爬取，百度/360搜索关键词提交，网络图片下载和IP地址归属地查询的实例。在实践中遇到如登录页面、状态码503等问题，并提供了部分代码和实操步骤。

摘要由CSDN通过智能技术生成

三、Requests库网络爬虫实战(学习笔记）

一、实例1：京东商品页面的爬取

1.获取某商品的信息

商品连接：https://item.jd.com/2967929.html
工具：IDLE
过程：

>>>import requests # 加载requests库
>>>r = requests.get("https://item.jd.com/2967929.html") # 通过get方法获取链接内容
>>>r.status_code # 观察返回的状态码的信息
>>>r.encoding #查看编码
# ‘gbk’说明我们从http头部就可以解析出这个页面的编码信息；京东的网站提供了页面信息的相关编码
>>>r.text[:1000]

2.全代码

import requests 
url = "https://item.jd.com/2967929.html"
try:
	r = requests.get(url)
	r.raise_for_status()
	r.encoding = r.apparent_encoding
	print(r.test[:1000])
except:
	print("爬取失败")

3.实操（IDLM）

在这里插入图片描述

第一次尝试课程给的连接，会显示这个登陆的页面，以为是因为商品下架，所以换了一个新的链接。发现依然是登陆界面，决定登陆试试，但还是不行。有点蒙了。

二、实例2：亚马逊商品页面的爬取

1.获取某商品的信息

商品连接：https://www.amazon.cn/gp/product/BO1M8L5Z3Y

链接已失效，自己操作时任意选取其他商品

工具：IDLE
过程：

>>>import requests # 加载requests库
>>>r = requests.get("https://www.amazon.cn/gp/product/BO1M8L5Z3Y") # 通过get方法获取链接内容
>>>r.status_code # 观察返回的状态码的信息
>>>r.encoding #查看编码
>>>r.