相信大家在学习tensorflow的过程中,会想要自己动手来试试加载我们的数据集,而不再局限于从datasets上下载数据集。但是往往一个模型的训练就需要很庞大的数据集,因此写下这篇博客教大家如何用爬虫爬取图片,制作自己的数据集,本博客只教大家爬取原始图片数据,数据增强方面博主会再写一篇博客教大家常用的一些图片处理方法。
博主用的是pycharm2021.3,谷歌浏览器,第三方库文件如下。
import requests
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from time import sleep
import re
import os
另外大家还需要下载一个驱动文件,chromedriver.exe,下载链接http://chromedriver.storage.googleapis.com/index.html
下载之前大家先查看一下自己浏览器的版本,在设置里的About chrome就可以查看,下载完成之后,推荐大家放在和爬虫文件同目录下。