17.6.5 如何用python爬虫百度图片里面可加关键词的搜索结果

好久没有发博客了,可能是最近一段时间不怎么想学习。这样不好不好!!
前一小段时间主要在弄的一件事情就是自己在整理一个caricature的库,但是做这种漫画的人脸识别的数据库现有的并不多,如果公开的话也只是少部分,并且已经公开的数据库都比较小。所以为了下一个小阶段的学习,自己整理了一个小的caricature dataset。所以简单的保存图片已经不能满足于我,所以就找了爬虫来爬图片。由于caricature数据库中每个人都是含有真实的图片,同时也含有漫画肖像图。漫画肖像图主要是从google image和国外的一个叫Pinterest上面获取的(需要翻墙)。在搞定了漫画图之后,其次的主要任务就是真实的图片,也就是爬百度图片的图片。
代码如下:

import re
import requests
import os

def downloadPic(html,keyword,name):
    pic_url = re.findall('"objURL":"(.*?)",'html,re.S)
    i = 0
    print 'Find the key words:' + keywprd
    print 'Now downloading...'
    for each in pic_url:
        print str(i) +'of all' +keywords + ', URL:' + str(each)
        try:
            pic = requests.get(each,timeout=30)
        except requests.exceptions.ConnectionError:
            print 'Error: can not download the image'
            continue

        string = 'pictures/' + name + '/' + str(i) + '.jpg'
        fp = open(string.decode('utf-8').encode('cp936'),'wb')
        fp.write(pic.content)
        i += 1
        if i == 10:
            continue

if __main__ == '__main__':
    namelist = open('关键词列表路径')
    for pername in namelist.readlines():
        dir_string = 'pictures/' + pername + '/'
        os.mkdir(dir_string)
        url = 'http://image.baidu.com/search/filp?tn=baiduimage&ie=utf-8&word=' + word + '&ct=201326592&v=flip'
        result = request.get(url)
        downloadPic(result.text,pername,pername)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值