爬取花瓣网并批量下载图片

    f12查看网页源码,当下拉的时候会出现ajax请求

点击上图中的url,在headers最后一栏,比对后发现网页的url基本相同除了page会变

以下是源码

import requests, os
from urllib.parse import urlencode
from bs4 import BeautifulSoup as bs 
from selenium import webdriver 
from hashlib import md5
from multiprocessing.pool import Pool 

#设置爬取页数
GROUP_START = 1
GROUP_END = 5

def get_image(page):
    browser = webdriver.PhantomJS()
    base_url = 'http://huaban.com/search/?'
    params = {
            'q': '水滴',
            'type': 'pins',
            'jk3p8ngq': '',
            'page': page,
            'per_page': '20',
            'wfl': '1',
    }
    url = base_url + urlencode(params)
    browser = webdriver.PhantomJS()
    browser.get(url)
    html = browser.page_source  
    soup = bs(html, 'lxml')
    print(soup.title.string)
    doc = soup.find(attrs={'id': 'waterfall'})
    for items in doc.children:
        if items.img:
            yield{
                'title': items.a.string,
                'image': items.img['src']
            }


def save_image(item):
    if not os.path.exists(item['title']):   #判断路径是否存在
        os.mkdir(item['title'])             #如果不存在新建文件夹
    try:
        image_url = item['image']
        rsp = requests.get('http:' + image_url)
        if rsp.status_code == 200:
            file_path = '{0}/{1}.{2}'.format(item['title'], md5(rsp.content).hexdigest(), 'jpg')
            if not os.path.exists(file_path):
                with open(file_path, 'wb') as f:
                    f.write(rsp.content)
            else:
                print('Already dowmload', file_path)
    except requests.ConnectionError:
        print('Fail to download image')


def main(page):
    for item in get_image(page):
        if item['title'] != None:
            print(item)
            save_image(item)


if __name__ == '__main__':
    pool = Pool()
    groups = ([x for x in range(GROUP_START, GROUP_END)])
    pool.map(main, groups)
    pool.close()
    pool.join()











 

开始网页请求是用requests,但是得不到网页源码,所以改用Phantom JS

参考  python3 网络爬虫开发实战

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值