三、Requests库网络爬虫实战(学习笔记)

Requests库网络爬虫实战(学习笔记)一、实例1:京东商品页面的爬取1.获取某商品的信息商品连接:https://item.jd.com/2967929.html工具:IDLE过程:>>>import requests # 加载requests库>>>r = requests.get("https://item.jd.com/2967929.html") # 通过get方法获取链接内容>>>r.status_code # 观察返回的状
摘要由CSDN通过智能技术生成

三、Requests库网络爬虫实战(学习笔记)

一、实例1:京东商品页面的爬取

1.获取某商品的信息

商品连接:https://item.jd.com/2967929.html
工具:IDLE
过程:

>>>import requests # 加载requests库
>>>r = requests.get("https://item.jd.com/2967929.html") # 通过get方法获取链接内容
>>>r.status_code # 观察返回的状态码的信息
>>>r.encoding #查看编码
# ‘gbk’说明我们从http头部就可以解析出这个页面的编码信息;京东的网站提供了页面信息的相关编码
>>>r.text[:1000]

2.全代码

import requests 
url = "https://item.jd.com/2967929.html"
try:
	r = requests.get(url)
	r.raise_for_status()
	r.encoding = r.apparent_encoding
	print(r.test[:1000])
except:
	print("爬取失败")

3.实操(IDLM)

在这里插入图片描述

第一次尝试课程给的连接,会显示这个登陆的页面,以为是因为商品下架,所以换了一个新的链接。发现依然是登陆界面,决定登陆试试,但还是不行。有点蒙了。

二、实例2:亚马逊商品页面的爬取

1.获取某商品的信息

商品连接:https://www.amazon.cn/gp/product/BO1M8L5Z3Y

链接已失效,自己操作时任意选取其他商品

工具:IDLE
过程:

>>>import requests # 加载requests库
>>>r = requests.get("https://www.amazon.cn/gp/product/BO1M8L5Z3Y") # 通过get方法获取链接内容
>>>r.status_code # 观察返回的状态码的信息
>>>r.encoding #查看编码
>>>r.
  • 17
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值