AI识虫数据集

最新推荐文章于 2025-10-26 20:46:01 发布

原创最新推荐文章于 2025-10-26 20:46:01 发布 · 4k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

飞桨专栏收录该内容

8 篇文章

订阅专栏

该博客介绍了如何构建一个AI识虫数据集，包括2183张图片，训练集、验证集和测试集的划分。数据集包含昆虫的名称、边界框信息和识别难度。标注过程中涉及将昆虫名字转化为数字标签，读取XML注释文件，以及图片处理技术如cv2.imread和cv2.cvtColor。此外，还提及了图像阈值和保持图片比例的处理方法。

AI识虫数据集

该数据集提供了2183张图片，其中训练集1693张，验证集245张，测试集245张。

size：图片尺寸
object：图片中包含的物体，一张图片中包含多个物体
name：昆虫名称
bndbox：物体真实框
difficult：识别是否困难

标注信息读取

1、将昆虫名字转化成数字标签

2、读取annotations目录下的xml文件

3、读取图片和他对应的标注

附：

cv2.imread和cv2.cvtColor

imread 读的彩色图按照BGR像素存储，如果转换成RGB则需要用cvtColor函数进行转换

format函数

用于字符串的格式化

格式化字段将会被 format() 中的参数替换

 print("我叫{},今年{}!".format("张三",22))
 print("我叫{0},今年{1}!".format("张三",22))
 print("我叫{1},今年{0}!".format("张三",22))
 
 # 执行结果
 我叫张三,今年22!
 我叫张三,今年22!
 我叫22,今年张三!