一、数据采集

最新推荐文章于 2024-07-28 15:46:11 发布

陶逗逗（打怪升级版）

最新推荐文章于 2024-07-28 15:46:11 发布

阅读量56

点赞数

分类专栏： yoli5模型的实现文章标签： python 爬虫

本文链接：https://blog.csdn.net/qq_61565654/article/details/132875019

版权

yoli5模型的实现专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1、部署环境

1.1、使用Anaconda3 部署采集数据的环境

conda create -n 创建环境的名称 python==3.8.5

conda create -n yolo5 python==3.8.5

1.2、激活环境

conda activate 创建环境的名称

conda activate yolo5

1.3、进行 conda 换源

conda config --remove-key channels

conda config --add channelsIndex of /anaconda/pkgs/main/ | 北京外国语大学开源软件镜像站 | BFSU Open Source Mirror

conda config --add channels Index of /anaconda/pkgs/free/ | 北京外国语大学开源软件镜像站 | BFSU Open Source Mirror

conda config --add channels Index of /anaconda/cloud/pytorch/ | 北京外国语大学开源软件镜像站 | BFSU Open Source Mirror

conda config --set show_channel_urls yes

pip config set global.index-url Simple Index

1.4、安装相关的库和包

pip install -r 决对路径下的 requirement.txt

例如： pip install -r D:\桌面\txy\IT\requirement.txt

Keras==2.4.3
matplotlib==3.2.0
pandas==1.3.1
protobuf==3.20.3
scikit-image==0.18.0
scikit-learn==1.2.2
scipy==1.4.1
seaborn==0.12.2
selenium==3.141.0
setuptools==47.1.0
tensorflow==2.3.0
numpy==1.18.0

二、数据的爬取

2.1、找到要爬取 car 图片的 url

url = '百度安全验证'

2.2、使用爬虫爬取汽车图片

在同一文件夹下创建一个'figure_file' 文件夹存放图片。

import time
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import urllib.request
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service

start = time.time()


def share_browser():
    chrome_options = webdriver.ChromeOptions()
    chrome_options.add_argument('--headless')
    chrome_options.add_argument('--disable-gpu')

    # path是你自己的chrome浏览器的文件路径
    # path = r'D:\软件下载\Google\Google\Chrome\Application\chrome.exe'
    path = r'D:\软件下载\Google\Google\Chrome\Application\chrome.exe'# 这里是谷歌浏览器的路径
    chrome_options.binary_location = path
    browser = webdriver.Chrome(options=chrome_options)
    return browser


browser = share_browser()

url = 'https://image.baidu.com/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&dyTabStr=MTEsMCw2LDMsMSw0LDUsMiw4LDcsOQ%3D%3D&word=%E6%B1%BD%E8%BD%A6'
browser.get(url)
Page = int(input("请输入需要下载的页数：\n"))
for i in range(1, Page):
    js_bottom = 'document.documentElement.scrollTop=100000'
    browser.execute_script(js_bottom)
    time.sleep(10)

# imgdata = browser.find_elements_by_class_name('main_img')
imgdata = browser.find_elements(By.XPATH, '//img[@class="main_img img-hover"]')
# imgdata = browser.find_elements_by_css_selector('.main_img')
print(imgdata)
single_num = 1
for item in imgdata:
    print(item.get_attribute('src'))
    url = item.get_attribute('src')
    urllib.request.urlretrieve(url=url, filename='./figure_file/' + str(single_num) + '.jpg')
    single_num = single_num + 1

browser.quit()

end = time.time()
print('Running time : %s Seconds' % (end - start))