python爬取京东商品图片_Python---爬取京东商城的图片

最新推荐文章于 2021-07-15 21:47:17 发布

weixin_39860849

最新推荐文章于 2021-07-15 21:47:17 发布

阅读量825

点赞数

文章标签： python爬取京东商品图片

爬取京东商城的图片

1.我们爬取数据时首先自己要明确需要什么，我们在爬取京东商城的图片是首先要获取url，打开京东网页，点击手机类型，选择全部手机，观察浏览器的地址栏的变化，发现url主要是有：https://list.jd.com/list.html?cat=9987,653,655&page=1，而page就是每页的标志.

2.点击F12，通过浏览器查看部分源代码，寻找特需规律，我们发现每一页开始都是从

开始的，以

结束的，接着查看图片的规律, ,那我们就可以根据这个规律来写正则表达式来过滤我们想要的信息。

def craw(url, page):

# 1.获取网页的数据

html1 = urllib.request.urlopen(url).read()

html1 = str(html1)

# 2.通过正则得到每页图片的数据

pattrn1 = '

'

result1 = re.compile(pattrn1).findall(html1)

image = result1[0]

# 3.在通过正则拿到每页所有的图片链接

pattrn2 = ''

imaglist = re.compile(pattrn2).findall(image)

# 4.遍历所有的图片链接，将图片保存在本地，通过页号和序号有序的排列

x = 1

for imageurl in imaglist:

imagename = "D:/python/image"+str(page)+str(x)+".jpg"

imageurl = "http://"+imageurl

try:

urllib.request.urlretrieve(imageurl, filename=imagename)

except urllib.error.URLError as e:

if hasattr(e, "code"):

x += 1

if hasattr(e, "reason"):

x += 1

x += 1

for i in range(1, 79):

url = "https://list.jd.com/list.html?cat=9987,653,655&page="+str(i)

craw(url, i)

其实爬虫的关键是在于分析，我们要根据自己的需求对网页及西宁分析，然后找出规律，写出正确的正则表达式来过滤自己的信息，拿到想要的东西，在就是在请求的过程中我们需要注意许多细节。

weixin_39860849

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。