1、解决的问题:
之前遇到过项目中需要大量的图书图片,自己没有就只有到大型网站抓取了。 ̄□ ̄||
2、解决的办法:
通过python+selenium到豆瓣抓取图片,可以直接把图片地址保存下来,也可以直接下载图片。
3、脚本解析:(这里没有弄成项目,直接写的一个脚本)
脚本包含2个类,一个是数据库操作类,一个是图片处理类
(1)图片处理类:提供获取图片地址的方法、保存图片地址到数据库、下载图片到本地
(2)数据库操作类:提供了连接数据库,插入数据、查询数据等方法,这里只用到了插入数据和关闭连接池的方法。
(3)excel操作类:isbn放在excel里面,从excel中读取isbn。
(4)代码:
# -*- coding: utf-8 -*-
'''
Created on 2018年6月20日
@author: zww
'''
from selenium import webdriver
import pymysql
import time
import os
import random
from urllib import request
class DouBanPics:
def __init__(self, isbnlist):
path = "C:\Program Files (x86)\Google\Chrome\Applic