Python依据单个关键词爬取百度图片

最近由于工作需要要使用大量的水果蔬菜图片,故萌生使用爬虫抓取百度图片的想法,并未用于商业用途,只是为了测试数据。所以并未使用多线程、框架等技术。
由于百度图片是动态加载的,发现搜索关键词后action的参数很相似,故使用requests.get(url , params=)函数去获取内容。并正则提取到所有的图片链接,再将这些图片写入文件夹中。
开始和网上的资料中使用的获取json字符串,但是有些关键词会提示无法解析json,多次尝试后未果故放弃提取json改为正则匹配。

import requests
import re
import os

def getIntPages(keyword, pages):
    params = []
    for i in range(30, 30*pages+30, 30):
        params.append({
            'tn':'resultjson_com',
            'ipn': 'rj',
            'ct':'201326592',
            'is': '',
            'fp': 'result',
            'queryWord': keyword,
            'cl': '2',
            'lm': '-1',
            'ie': 'utf-8',
            'oe': 'utf-8',
            'st': '-1',
            'ic': '0',
            'word': keyword,
            'face': '0',
            'istype': '2',
            'nc': '1',
            'pn': i,
            'rn': '30'
        })
    url = 'https://image.baidu.com/search/acjson'
    urls = []
    for i in params:
        content = requests.get(url, params=i).text
        img_urls = re.findall(r'"thumbURL":"(.*?)"', content)#正则获取方法
        urls.append(img_urls)
        #urls.append(requests.get(url,params = i).json().get('data'))开始尝试的json提取方法
        #print("%d times : " % x, img_urls)
    return urls

def fetch_img(path,dataList):
    if not os.path.exists(path):
        os.mkdir(path)

    x = 0
    for list in dataList:
        for i in list:
            print("=====downloading %d/1500=====" % (x + 1))
            ir = requests.get(i)
            open(path + '%d.jpg' % x, 'wb').write(ir.content)
            x += 1



if __name__ == '__main__':
    url = 'https://image.baidu.com/search/acjson'

    dataList = getIntPages('蔬菜', 50)#依据蔬菜关键词获取50页的图片列表,每页30张图片
    fetch_img("vegetable/", dataList)#存取图片

该爬虫还有很多地方可以改进,如 :
1.多个关键词的搜索尝试
2.是否可以使用多线程框架提高抓取速度

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Python是一种高级编程语言,拥有丰富的库和模块,可以方便地进行网络爬虫操作,用于从互联网上获取数据。关键字Python语言中具备特殊含义的单词,其中一个关键字是"爬取"。我们可以使用Python关键字来编写代码,实现从百度图片网站上爬取图片的功能。 首先,我们需要安装相关的Python库,例如"requests"用于发送网络请求,"beautifulsoup4"用于解析网页内容。然后,我们可以编写Python代码来实现爬取百度图片的功能。 首先,我们需要导入上述所需的库: ``` import requests from bs4 import BeautifulSoup ``` 接下来,我们需要定义一个函数,将要爬取的网址作为参数传入函数中。在函数中,我们使用"requests"库发送网络请求,获取网页的内容,然后使用"beautifulsoup4"库对网页内容进行解析。 ``` def crawl_baidu_images(url): response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') ``` 接下来,我们需要通过分析百度图片网站的源代码,找到图片所在的标签和属性,然后使用"beautifulsoup4"库提供的方法来选取和提取图片。 ``` images = soup.find_all('img', class_='img-hover') for image in images: print(image['src']) ``` 最后,我们可以调用上述定义的函数,并传入百度图片网站的网址,来执行爬取操作。 ``` crawl_baidu_images('http://image.baidu.com/') ``` 以上就是使用Python关键字实现爬取百度图片的简单示例代码。当然,实际的爬虫代码可能更加复杂,需要处理网页解析、数据存储等更多的细节。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值