python爬取京东商品图片_Python---爬取京东商城的图片

爬取京东商城的图片

1.我们爬取数据时首先自己要明确需要什么,我们在爬取京东商城的图片是首先要获取url,打开京东网页,点击手机类型,选择全部手机,观察浏览器的地址栏的变化,发现url主要是有:https://list.jd.com/list.html?cat=9987,653,655&page=1,而page就是每页的标志.

2.点击F12,通过浏览器查看部分源代码,寻找特需规律,我们发现每一页开始都是从

开始的,以
结束的,接着查看图片的规律, ,那我们就可以根据这个规律来写正则表达式来过滤我们想要的信息。

def craw(url, page):

# 1.获取网页的数据

html1 = urllib.request.urlopen(url).read()

html1 = str(html1)

# 2.通过正则得到每页图片的数据

pattrn1 = '

'

result1 = re.compile(pattrn1).findall(html1)

image = result1[0]

# 3.在通过正则拿到每页所有的图片链接

pattrn2 = ''

imaglist = re.compile(pattrn2).findall(image)

# 4.遍历所有的图片链接,将图片保存在本地,通过页号和序号有序的排列

x = 1

for imageurl in imaglist:

imagename = "D:/python/image"+str(page)+str(x)+".jpg"

imageurl = "http://"+imageurl

try:

urllib.request.urlretrieve(imageurl, filename=imagename)

except urllib.error.URLError as e:

if hasattr(e, "code"):

x += 1

if hasattr(e, "reason"):

x += 1

x += 1

for i in range(1, 79):

url = "https://list.jd.com/list.html?cat=9987,653,655&page="+str(i)

craw(url, i)

其实爬虫的关键是在于分析,我们要根据自己的需求对网页及西宁分析,然后找出规律,写出正确的正则表达式来过滤自己的信息,拿到想要的东西,在就是在请求的过程中我们需要注意许多细节。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值