网络爬虫第一站,我参考一些资料,写下了个人的第一个简单地网络爬虫程序,麻雀虽小,五脏俱全。
该爬虫程序的功能是,根据输入的图片关键字以及所要的图片数量,从百度图片上下载设定数量的对应主题图片,并保存到本地对应文件夹中。开发过程中涉及到的网络爬虫知识,主要有以下几个方面,一是python基础知识,二是python urllib2库的使用,三是实际爬取过程中出现的各种网络错误及解决方法,四是windows下中文乱码问题,五是python文件操作知识。
先上完整的代码,后面再作简要说明:
# -*- coding: utf-8 -*-
"""
Created on Thu Aug 25 19:50:42 2016
@author: Administrator
"""
import re
import os
import urllib2
import cookielib
import sys
class bdImg:
baseUrl = &