Python爬虫爬取百度图片

最新推荐文章于 2024-07-07 09:46:06 发布

login_sonata

最新推荐文章于 2024-07-07 09:46:06 发布

阅读量7.1k

点赞数

分类专栏： Python 文章标签： python 爬虫百度图片

本文链接：https://blog.csdn.net/login_sonata/article/details/53438777

版权

该博客介绍了一个使用Python爬虫从百度获取特定人物图片的方法。首先，准备一个包含人名的TXT文件，然后逐个遍历人名，为每个人名创建一个文件夹并下载30张相关图片。通过观察URL中的参数`pn`，发现每页包含60张图片，通过递增60来实现翻页，从而获取更多图片。

摘要由CSDN通过智能技术生成

前期准备：一个所爬人物的名单txt，只要人名，一行一个。

代码流程：读取上述名单，遍历每一个人名，爬取30张关于他的百度图片，保存在以他名字命名的文件夹中。

ps：默认情况下，网址的一页是60张图，如何翻页呢？注意到所爬网址的最后是pn=60，只要每次加60就会到新的一页，比如pn=120，pn=180等。

#!/usr/bin/env python
# encoding: utf-8
import urllib2
import re
import os
import sys
reload(sys)
sys.setdefaultencoding("utf-8")

def img_spider(name_file):
    user_agent = "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36"
    headers = {'User-Agent':user_agent}
    #读取名单txt，生成包括所有人的名单列表
    with open(name_file) as f:
        name_list = [name.rstrip().decode('utf-8') for name in f.readlines()]
        f.close()
    #遍历每一个人，爬取30张关于他的图，保存在以他名字命名的文件夹中
    for name in name_list:
        #生成文件夹（如果不存在的话）
        if not os.