python爬虫实践----爬取京东图片

爬虫思路:
1.分析url:

http://list.jd.com/list.html?cat=9987,653,655&page=1

# url只有page变化,而page代表了页数

这里写图片描述

  1. 提取url内容并正则匹配出需要的内容
urllib.request.urlopen(url).read();
# 读取指定url的全部内容

下面是根据正则的re库匹配出所需要的dom节点

3.根据匹配出的图片url筛选出图片并下载图片

4.最后通过循环,遍历出所有的页数

完整代码:
import re
import urllib.request


def craw(url,page):
    ## 读取url地址中的页面
    html1 = urllib.request.urlopen(url).read();
    ## 读取url的全部信息并转为字符串
    html1 = str(html1);

    ##匹配元素1---父节点
    pat1 = '<div id="plist".+? <div class="page clearfix">';
    result1 = re.compile(pat1).findall(html1);
    result1 = result1[0];

    ##匹配元素2--子节点
    pat2='<img width="220" height="220" data-img="1" data-lazy-img="//(.+?\.jpg)">';

    imagelist=re.compile(pat2).findall(result1);
    x=1;
    for imgurl in imagelist:
        #设置地址跟爬取图片的地址
        imagename="F:/pythonB/img/"+str(page)+str(x)+".jpg";
        imgurl= "http://" +imgurl;
        print(imgurl);
        try:
            #保存图片并定义图片名字
            urllib.request.urlretrieve(imgurl,filename=imagename)
        except urllib.error.URLError as e:
            if hasattr(e, "code"):
                x+=1;
            if hasattr(e, "reason"):
                x+=1;
        x+=1;

for i in range(1,79):
    url = 'http://list.jd.com/list.html?cat=9987,653,655&page='+str(i)
    craw(url,i);

最后得到所有的图片:
这里写图片描述

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

阿冰介

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值