一、数据采集

1、部署环境

1.1、使用Anaconda3 部署采集数据的环境

conda create -n 创建环境的名称 python==3.8.5

conda create -n yolo5 python==3.8.5

1.2、激活环境

conda activate 创建环境的名称

conda activate yolo5

1.3、进行 conda 换源

conda config --remove-key channels

conda config --add channelsIndex of /anaconda/pkgs/main/ | 北京外国语大学开源软件镜像站 | BFSU Open Source Mirror

conda config --add channels Index of /anaconda/pkgs/free/ | 北京外国语大学开源软件镜像站 | BFSU Open Source Mirror

conda config --add channels Index of /anaconda/cloud/pytorch/ | 北京外国语大学开源软件镜像站 | BFSU Open Source Mirror

conda config --set show_channel_urls yes

pip config set global.index-url Simple Index

1.4、安装相关的库和包

pip install -r 决对路径下的 requirement.txt

例如: pip install -r D:\桌面\txy\IT\requirement.txt

Keras==2.4.3
matplotlib==3.2.0
pandas==1.3.1
protobuf==3.20.3
scikit-image==0.18.0
scikit-learn==1.2.2
scipy==1.4.1
seaborn==0.12.2
selenium==3.141.0
setuptools==47.1.0
tensorflow==2.3.0
numpy==1.18.0

二、数据的爬取

2.1、找到要爬取 car 图片的 url

url = '百度安全验证'

2.2、使用爬虫爬取汽车图片

在同一文件夹下创建一个'figure_file' 文件夹存放图片。

import time
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import urllib.request
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service

start = time.time()


def share_browser():
    chrome_options = webdriver.ChromeOptions()
    chrome_options.add_argument('--headless')
    chrome_options.add_argument('--disable-gpu')

    # path是你自己的chrome浏览器的文件路径
    # path = r'D:\软件下载\Google\Google\Chrome\Application\chrome.exe'
    path = r'D:\软件下载\Google\Google\Chrome\Application\chrome.exe'# 这里是谷歌浏览器的路径
    chrome_options.binary_location = path
    browser = webdriver.Chrome(options=chrome_options)
    return browser


browser = share_browser()

url = 'https://image.baidu.com/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&dyTabStr=MTEsMCw2LDMsMSw0LDUsMiw4LDcsOQ%3D%3D&word=%E6%B1%BD%E8%BD%A6'
browser.get(url)
Page = int(input("请输入需要下载的页数:\n"))
for i in range(1, Page):
    js_bottom = 'document.documentElement.scrollTop=100000'
    browser.execute_script(js_bottom)
    time.sleep(10)

# imgdata = browser.find_elements_by_class_name('main_img')
imgdata = browser.find_elements(By.XPATH, '//img[@class="main_img img-hover"]')
# imgdata = browser.find_elements_by_css_selector('.main_img')
print(imgdata)
single_num = 1
for item in imgdata:
    print(item.get_attribute('src'))
    url = item.get_attribute('src')
    urllib.request.urlretrieve(url=url, filename='./figure_file/' + str(single_num) + '.jpg')
    single_num = single_num + 1

browser.quit()

end = time.time()
print('Running time : %s Seconds' % (end - start))

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值