1、部署环境
1.1、使用Anaconda3 部署采集数据的环境
conda create -n 创建环境的名称 python==3.8.5
conda create -n yolo5 python==3.8.5
1.2、激活环境
conda activate 创建环境的名称
conda activate yolo5
1.3、进行 conda 换源
conda config --remove-key channels
conda config --add channelsIndex of /anaconda/pkgs/main/ | 北京外国语大学开源软件镜像站 | BFSU Open Source Mirror
conda config --add channels Index of /anaconda/pkgs/free/ | 北京外国语大学开源软件镜像站 | BFSU Open Source Mirror
conda config --add channels Index of /anaconda/cloud/pytorch/ | 北京外国语大学开源软件镜像站 | BFSU Open Source Mirror
conda config --set show_channel_urls yes
pip config set global.index-url Simple Index
1.4、安装相关的库和包
pip install -r 决对路径下的 requirement.txt
例如: pip install -r D:\桌面\txy\IT\requirement.txt
Keras==2.4.3
matplotlib==3.2.0
pandas==1.3.1
protobuf==3.20.3
scikit-image==0.18.0
scikit-learn==1.2.2
scipy==1.4.1
seaborn==0.12.2
selenium==3.141.0
setuptools==47.1.0
tensorflow==2.3.0
numpy==1.18.0
二、数据的爬取
2.1、找到要爬取 car 图片的 url
url = '百度安全验证'
2.2、使用爬虫爬取汽车图片
在同一文件夹下创建一个'figure_file' 文件夹存放图片。
import time
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import urllib.request
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
start = time.time()
def share_browser():
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
# path是你自己的chrome浏览器的文件路径
# path = r'D:\软件下载\Google\Google\Chrome\Application\chrome.exe'
path = r'D:\软件下载\Google\Google\Chrome\Application\chrome.exe'# 这里是谷歌浏览器的路径
chrome_options.binary_location = path
browser = webdriver.Chrome(options=chrome_options)
return browser
browser = share_browser()
url = 'https://image.baidu.com/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&dyTabStr=MTEsMCw2LDMsMSw0LDUsMiw4LDcsOQ%3D%3D&word=%E6%B1%BD%E8%BD%A6'
browser.get(url)
Page = int(input("请输入需要下载的页数:\n"))
for i in range(1, Page):
js_bottom = 'document.documentElement.scrollTop=100000'
browser.execute_script(js_bottom)
time.sleep(10)
# imgdata = browser.find_elements_by_class_name('main_img')
imgdata = browser.find_elements(By.XPATH, '//img[@class="main_img img-hover"]')
# imgdata = browser.find_elements_by_css_selector('.main_img')
print(imgdata)
single_num = 1
for item in imgdata:
print(item.get_attribute('src'))
url = item.get_attribute('src')
urllib.request.urlretrieve(url=url, filename='./figure_file/' + str(single_num) + '.jpg')
single_num = single_num + 1
browser.quit()
end = time.time()
print('Running time : %s Seconds' % (end - start))