利用爬虫爬取数据集

最新推荐文章于 2024-04-24 13:35:29 发布

VIP文章冯简

最新推荐文章于 2024-04-24 13:35:29 发布

阅读量4k

点赞数 6

文章标签： python 网络爬虫 tensorflow

本文链接：https://blog.csdn.net/m0_58775709/article/details/123943213

版权

相信大家在学习tensorflow的过程中，会想要自己动手来试试加载我们的数据集，而不再局限于从datasets上下载数据集。但是往往一个模型的训练就需要很庞大的数据集，因此写下这篇博客教大家如何用爬虫爬取图片，制作自己的数据集，本博客只教大家爬取原始图片数据，数据增强方面博主会再写一篇博客教大家常用的一些图片处理方法。

博主用的是pycharm2021.3，谷歌浏览器，第三方库文件如下。

import requests
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from time import sleep
import re
import os

另外大家还需要下载一个驱动文件，chromedriver.exe，下载链接http://chromedriver.storage.googleapis.com/index.html

下载之前大家先查看一下自己浏览器的版本，在设置里的About chrome就可以查看，下载完成之后，推荐大家放在和爬虫文件同目录下。

最低0.47元/天解锁文章

冯简

关注

6
点赞
踩
29

收藏

觉得还不错? 一键收藏
打赏
0
评论
利用爬虫爬取数据集

相信大家在学习tensorflow的过程中，会想要自己动手来试试加载我们的数据集，而不再局限于从datasets上下载数据集。但是往往一个模型的训练就需要很庞大的数据集，因此写下这篇博客教大家如何用爬虫爬取图片，制作自己的数据集，本博客只教大家爬取原始图片数据，数据增强方面博主会再写一篇博客教大家常用的一些图片处理方法。博主用的是pycharm2021.3，谷歌浏览器，第三方库文件如下。import requestsfrom selenium import webdriverfrom sele
复制链接

扫一扫