环境准备
精灵标注助手
精灵标注助手-人工智能数据集标注工具 (jinglingbiaozhu.com)
labelimg
pip install labelimg
数据采集、标注:手工活
导出
数据采集导出格式:xml、json、MongoDB、pascal-voc
采集出来的数据是网络方向标签化的数据
xml
网络标签化数据、网络传输不发达时创建
但是结构方便仍在数据处理适用
可以当成结构体、类
可以根据自己的设计需求定义专属的标记
标签语言:网络语言的表现形式,java、html、xml
XML 简介 - XML (可扩展标记语言) | MDN (mozilla.org)
精灵标记助手采集的xml格式数据
<!-- 矩形框采集 -->
<!-- 标记失败 -->
<?xml version="1.0" ?>
<doc>
<path>D:\yyqh\DataSet\set1\8805d9c7c825a211eacec94f37b871e9.jpeg</path>
<outputs></outputs>
<time_labeled>0</time_labeled>
<labeled>false</labeled>
</doc>
<!-- 标记成功,但识别失败 -->
<?xml version="1.0" ?>
<doc>
<path>D:\yyqh\DataSet\set1\data (1).jpeg</path>
<outputs>
<object></object>
</outputs>
<time_labeled>1695689497928</time_labeled>
<labeled>true</labeled>
<size>
<width>1000</width>
<height>1506</height>
<depth>3</depth>
</size>
</doc>
<!-- 成功 -->
<?xml version="1.0" ?>
<doc>
<path>D:\yyqh\DataSet\set1\data (2).jpeg</path>
<outputs>
<object>
<item>
<name>猫</name>
<bndbox>
<xmin>10</xmin>
<ymin>-1</ymin>
<xmax>974</xmax>
<ymax>1761</ymax>
</bndbox>
</item>
</object>
</outputs>
<time_labeled>1695689802263</time_labeled>
<labeled>true</labeled>
<size>
<width>1000</width>
<height>1778</height>
<depth>3</depth>
</size>
</doc>
<!-- 曲形框/锚点采集 -->
<?xml version="1.0" ?>
<doc>
<path>D:\yyqh\DataSet\set1\data (4).jpeg</path>
<outputs>
<object>
<item>
<name>柠檬</name>
<cubic_bezier>
<x57>25</x57>
<y57>505</y57>
<x57_c1>25</x57_c1>
<y57_c1>505</y57_c1>
<x57_c2>25</x57_c2>
<y57_c2>505</y57_c2>
<!-- 这一部分是比较复杂的坐标,所以省略 -->
<x1>25</x1>
<y1>505</y1>
<x1_c1>25</x1_c1>
<y1_c1>505</y1_c1>
<x1_c2>25</x1_c2>
<y1_c2>505</y1_c2>
</cubic_bezier>
</item>
</object>
</outputs>
<time_labeled>1695690362440</time_labeled>
<labeled>true</labeled>
<size>
<width>1080</width>
<height>757</height>
<depth>3</depth>
</size>
</doc>
# 不能直接选全图嘛
pascal-voc
目标检测数据集
MonogoDB
基于分布式文件存储的数据库。由C++
语言编写。
数据库交互、网络共享
vb # 被淘汰?但某方面实用
python # 不热门了
虚拟仿真 # 研究不了
数据结构、栈
数据标注众包平台——数加加
数加加-数据堂旗下众包平台:海量的数据采集和标注任务 (shujiajia.com)
github