棉花叶片病虫害数据集。数据集都是标注好的,txt格式,yolo格式,已经划分好训练集(4280张)、验证集(1201张)测试集(616张)包含类别标签文件。包含八个类别:叶斑病、蚜虫、粘虫、叶枯病、枯萎病、灰霉病、健康、叶卷病。不含任何数据增强的图片。数据集都是标注好的,拿到之后无需处理即可直接用于模型训练。数据集亲测可用,yolov8n所有类别平均map50为79.9%。
数据集名称
棉花叶片病虫害目标检测数据集(Cotton Leaf Disease and Pest Detection Dataset)
数据集概述
该数据集专为棉花叶片病虫害的自动检测任务设计,旨在帮助农业科研人员、种植者以及相关研究机构通过图像识别技术快速发现并定位棉花植株上的各种病害和害虫。数据集包含6097张高清图像,并且每张图像都经过详细的YOLO格式标注。这些图像展示了不同类型的棉花叶片病害情况及害虫侵害情况,涵盖了多种环境条件下的实际场景。数据集已经划分好训练集、验证集和测试集,并提供了完整的类别标签文件,可以直接用于基于YOLO的目标检测模型训练。
数据集特点
- 高质量图像:所有图像均为高分辨率,能够清晰地显示棉花叶片的细节。
- 详细标注:每张图像都附有精确的边界框以及类别标签,便于训练目标检测模型。
- 标准化格式:图像采用JPG或PNG格式存储,标签则按照YOLO格式组织,方便与主流框架结合使用。
- 多样化场景:图像来自不同的地理位置和环境条件,增强了模型的泛化能力。
- 无数据增强:数据集中不含任何数据增强处理的图片,保持了原始图像的真实性。
- 完整配置:提供了完整的
data.yaml
配置文件,描述了数据集路径和类别信息。 - 高精度模型:经测试,使用YOLOv8n模型训练后,所有类别的平均mAP50达到了79.9%,表明数据集具有较高的质量。
数据集构成
- 图像数量:
- 训练集:4280张
- 验证集:1201张
- 测试集:616张
- 类别数:8类
- 类别名称及数量:
leaf_spot
:叶斑病aphid
:蚜虫caterpillar
:粘虫leaf_blight
:叶枯病wilt
:枯萎病gray_mold
:灰霉病healthy
:健康leaf_curl
:叶卷病
- 数据集划分:
- 训练集
- 验证集
- 测试集
- 配置文件:包含完整的
data.yaml
配置文件,描述了数据集路径和类别信息。
数据集用途
- 病害检测:主要用于开发高效准确的目标检测算法,识别并定位图像中的棉花叶片病害和害虫。
- 农业监控:帮助农业部门进行自动化巡检,提高巡检效率和准确性。
- 病害管理:辅助农业部门及时发现棉花植株的潜在问题,预防病害扩散。
- 性能评估:作为基准数据集,可以用来比较不同算法或模型之间的性能差异。
- 研究与开发:支持学术界和工业界的研究人员探索新的计算机视觉技术和方法。
- 教育与培训:适合作为教材内容,帮助学生理解实际应用场景下的机器学习问题解决流程。
示例代码
以下是一个简单的Python脚本示例,用于加载数据集中的一对图像-标签对,并可视化其中的标注信息:
import os
import cv2
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.patches import Rectangle
# 数据集目录路径
data_dir = 'path/to/cotton_leaf_disease_dataset'
train_image_dir = os.path.join(data_dir, 'images/train')
train_label_dir = os.path.join(data_dir, 'labels/train')
# 选取一张训练图像及其对应标签
image_files = os.listdir(train_image_dir)
image_file = image_files[0] # 假设取第一张图
label_file = os.path.splitext(image_file)[0] + '.txt'
image_path = os.path.join(train_image_dir, image_file)
label_path = os.path.join(train_label_dir, label_file)
# 加载图像
image = cv2.imread(image_path, cv2.IMREAD_COLOR)
height, width, _ = image.shape
# 解析YOLO格式标签
def parse_yolo_label(label_path, image_width, image_height):
bboxes = []
with open(label_path, 'r') as f:
lines = f.readlines()
for line in lines:
class_id, x_center, y_center, box_width, box_height = map(float, line.strip().split())
x_min = int((x_center - box_width / 2) * image_width)
y_min = int((y_center - box_height / 2) * image_height)
box_width = int(box_width * image_width)
box_height = int(box_height * image_height)
bboxes.append((class_id, x_min, y_min, box_width, box_height))
return bboxes
# 解析标签
bboxes = parse_yolo_label(label_path, width, height)
# 可视化标注
fig, ax = plt.subplots(figsize=(10, 10))
ax.imshow(cv2.cvtColor(image, cv2.COLOR_BGR2RGB))
colors = ['red', 'blue', 'green', 'orange', 'purple', 'yellow', 'pink', 'brown']
names = ['leaf_spot', 'aphid', 'caterpillar', 'leaf_blight', 'wilt', 'gray_mold', 'healthy', 'leaf_curl']
for bbox, color_name in zip(bboxes, colors):
class_id, x, y, w, h = bbox
rect = Rectangle((x, y), w, h, linewidth=2, edgecolor=color_name, facecolor='none')
ax.add_patch(rect)
ax.text(x, y - 10, names[int(class_id)], color=color_name, fontsize=8)
plt.title('Cotton Leaf Disease and Pest Detection')
plt.axis('off')
plt.show()
数据集结构示例
├── cotton_leaf_disease_dataset
│ ├── images
│ │ ├── train
│ │ │ ├── 00000.jpg
│ │ │ ├── 00001.jpg
│ │ │ └── ...
│ │ ├── validation
│ │ │ ├── 00000.jpg
│ │ │ ├── 00001.jpg
│ │ │ └── ...
│ │ └── test
│ │ ├── 00000.jpg
│ │ ├── 00001.jpg
│ │ └── ...
│ ├── labels
│ │ ├── train
│ │ │ ├── 00000.txt
│ │ │ ├── 00001.txt
│ │ │ └── ...
│ │ ├── validation
│ │ │ ├── 00000.txt
│ │ │ ├── 00001.txt
│ │ │ └── ...
│ │ └── test
│ │ ├── 00000.txt
│ │ ├── 00001.txt
│ │ └── ...
│ └── data.yaml # 包含数据集的基本信息如类别数及类别名
数据集使用指南
-
数据准备:
- 确认数据集路径是否正确,并且图像和标签文件均存在指定的目录下。
- 检查数据集是否有损坏或缺失的文件,确保所有图像和对应的标注文件都是完整的。
-
数据集划分:
- 数据集已经划分为训练集、验证集和测试集,可以直接使用。
-
配置文件:
-
根据所使用的深度学习框架创建相应的配置文件。对于YOLOv8等模型,通常需要一个
data.yaml
文件来描述数据集路径和类别信息。 -
data.yaml
示例内容如下:train: path/to/cotton_leaf_disease_dataset/images/train val: path/to/cotton_leaf_disease_dataset/images/validation test: path/to/cotton_leaf_disease_dataset/images/test nc: 8 names: ['leaf_spot', 'aphid', 'caterpillar', 'leaf_blight', 'wilt', 'gray_mold', 'healthy', 'leaf_curl']
-
-
模型训练:
- 选择适合任务的深度学习框架(如YOLOv8, YOLOv7, Detectron2等)。
- 配置训练参数,包括学习率、批次大小、迭代次数等。
- 使用提供的数据集开始训练模型。确保在训练过程中监控模型的性能,可以通过TensorBoard或其他可视化工具来查看损失曲线和评估指标。
-
结果分析与调整:
- 完成训练后,对模型预测结果进行详细分析,检查模型在不同场景下的表现。
- 如果模型性能不佳,可以尝试以下方法进行改进:
- 增加数据增强技术,提高模型的泛化能力。
- 调整模型架构,尝试不同的网络结构。
- 优化超参数,如学习率、正则化系数等。
- 扩大数据集规模,增加更多样本以提高模型的鲁棒性。
-
部署与应用:
- 将训练好的模型部署到实际应用场景中,如集成到现有的农业监控系统中。
- 开发用户界面或API接口,方便用户上传图像并获取检测结果。
- 定期更新模型,根据新收集的数据进行再训练,以保持模型的最新性和准确性。
总结
这个专门为棉花叶片病虫害检测设计的数据集不仅包含了丰富的图像样本,还通过详细的YOLO格式标注增强了其实用性和易用性。无论是对于希望改善现有系统还是尝试新方法的研究者来说,它都是一个宝贵的资源。此外,由于其标准化的格式和支持主流框架的特点,使得用户能够轻松地将其集成到自己的项目中去。该数据集特别适合于农业监控、病害管理以及其他相关领域的研究和应用,有助于提高农作物健康管理和产量。同时,经过测试,使用YOLOv8n模型训练后,所有类别的平均mAP50达到了79.9%,这表明数据集的质量非常高,非常适合直接用于模型训练。