图像标注工具调研

最新推荐文章于 2025-03-24 13:51:32 发布

雪急飞绪

最新推荐文章于 2025-03-24 13:51:32 发布

阅读量3.3k

点赞数 6

分类专栏：调研

本文链接：https://blog.csdn.net/qq_38689395/article/details/101452976

版权

调研专栏收录该内容

5 篇文章

订阅专栏

工具参考链接

工具参考链接里有各大工具的名字，诸位可以一个一个测试

论文与标注工具合集:awesome-semantic-segmentation#annotation-tools
2010-2019标注工具(推荐):Annotation tools for building datasets
补充2:24 Best Image Annotation Tools for Computer Vision

数据集链接

Pascal Voc 2012
MS COCO
BDD
Mapillary Vistas
Cityscapes
KITTI
ApolloScape

目标模型

前后帧标的数据可以复制或保留(要继承属性)，最好支持等比例放大/缩小
提供两种解决方案。一个是传统的 polygon 标注，另一个是类似魔术棒的快速选择或自动识别
修改方便，点多的情况下，修改起来不是很容易，容易多点。解决方案：两个点之间不提供中间点，可以按Alt 增加点。
两个有重复区域的车辆，最好能共享边界，这样能提高效率
源代码是否开源，可否二次开发

标注工具

VGG Image Annotator (VIA)

一款开源的图像标注工具，由Visual Geometry Group开发。可以在线和离线使用，可标注矩形、圆、椭圆、多边形、点和线。标注完成后，可以导出为csv和json文件格式。

使用：

【可以直接使用】
标注网站：VIA
VIA 工具下载：GitHub

优点：

网页源代码开源，可离线使用还可进行二次开发，比如增加鼠标十字线
标框可以复制（可前后帧复制），同样大小可直接复制且继承属性，属性面板较为清晰

缺点：

多边形工具，一旦绘制完多边形无法增加锚点，只能调节点的位置

VIA

CVAT

可用来为计算机视觉算法标注视频和图像。它受到Vatic免费在线交互式视频标注工具的启发。 CVAT具有许多强大的功能：关键帧之间的边界框插值，使用TensorFlow OD API的自动标注，大多数关键操作的快捷方式，带有标注任务列表的仪表板，LDAP和基本授权等等…

使用：

【需要部署,部署后需创建账号登录】
【Win7、win10都部署失败，Ubuntu部署成功】
CVAT 工具下载：GitHub
文档： markdown
推荐参考

优点：

使用插值模式，上一帧标过的图片下一帧会保留（属性和框都保留），前后帧关联性较大的做起来会很快
可以链接轨道，让同一个实例拥有相同的ID

缺点：

没有贝塞尔曲线，只能一个一个点

CVAT

PixelAnnotationTool

图像语义分割与实例分割标注神器，交互式标注算法思想是基于OpenCV中分水岭算法实现。

使用：

【需下载使用】
PixelAnnotationTool 工具下载：GitHub

优点：

快捷，半自动化，类似PS蒙版，基于OpenCV中分水岭算法实现
可以返回上一步

缺点：

车体颜色分布不均匀，软件无法识别
如果识别出来，大概率覆盖掉周围物体，很难修改

PixelAnnotationTool

Makesense

开启很快。进入网站，拖放你的图片，即可开始标注。

使用：

【可以直接使用】
标注网站：Makesense

优点：

修改很便利，如果是节点或中点，会放大鼠标选项，不容易误点
有类似PS图层功能，能清晰显示当前框
该网站不允许更改字体大小，不会让界面字体变大

缺点：

只能一个一个标，上下帧有强关联性的无法很快勾画

Makesense

Supervisely

一款的可以多人协作标注的管理平台，可以在其中找到在单个环境中构建深度学习解决方案所需的一切。

使用：

【可以直接使用】
标注网站：Supervisely
视频：操作指导

优点：

AI Mark 识别，只需要点2个点(矩形框的两个对角点)就可以生成识别区域
有图层概念，每个识别区域都可以很方便修改

缺点：

车距离较远或两个颜色相近的车有重叠区域，需要对边缘进行处理

Supervisely

Scalabel

CVPR 2018，Fisher Yu,Dequan Wang 等人在发布 Deep Layer Aggregation（特征聚合体系）论文的同时开源了这个数据标签工具 (含 BSD 许可证)。论文下载

使用：

【需要自己部署服务】
Scalabel 工具下载：GitHub

优点：

共享边界（Ctrl+D）
链接两个单独的标注对象（Ctrl+L）
提供贝塞尔曲线（C）

缺点：

没有提供快速标注
点很密集的情况下，不能返回上一步（Ctrl+Z）
停车时，前后帧一样，需要重复绘制

Scalabel

Semantic-segmentation-editor

该工具是为自动驾驶研究开发的，但也也已用于标注其他类型的语义目标数据库。它不仅支持普通相机拍摄的2D图像（.jpg和.png文件）还支持LIDAR生成的3D点云（.pcd文件）中目标的标注。

使用：

【可以直接下载使用】
Semantic-segmentation-editor 工具下载：GitHub
视频：操作指导

优点：

类似画笔，一直按鼠标左键或 shift 勾形即可，操作比较快。
支持切割和扩展，可以修改边缘。有PS魔棒功能，
支持HSB，图片不清晰可以调节

缺点：

因为可操作性比较高，学习成本有点高
只能一个一个标，上下帧有强关联性的无法很快勾画

Semantic-segmentation-editor

Labelme

MIT和CSAIL研发的图像标注工具，可对图像进行标注，包括多边形，矩形，线，点和图像级标注。

使用：

【需要自己部署服务，可用Anaconda部署】
GitHub 工具下载：GitHub

Labelme

精灵标注助手（Colabeler）

一款免费的数据集标注软件，可扩展性插件设计，可以通过插件形式支持自定义标注。

使用：

【可以直接下载使用】
工具下载：网站下载

针对语义分割绘制较慢
Colabeler

VoTT

微软发布的基于WEB方式本地部署的视觉数据标注工具。

使用：

【需要自己部署服务】
VoTT 工具下载：GitHub

针对语义分割绘制较慢

VoTT

LabelImg 和 LabelImgPlus

LabelImg 用Python写成，Qt是图形界面的接口。

使用：

【可以直接下载使用】
LabelImg 工具下载：GitHub
LabelImgPlus 工具下载：GitHub

LabelImg 只能矩形框进行标注，无法进行语义分割
labelImgPlus 有多边形工具，使用的时候出现问题

界面显示位置错误问题，看不到界面，右击导航栏最大化可以解决。(电脑分辨率1980*1080,软件左顶点位置坐标(1960,0))
保存有问题，无法真正保存。做完save后，切换下一帧再返回刚做那帧，框消失，查保存目录，没有任何文件写入。无法定位原因。

LabelImgPlus

EasyDL (百度)

是百度大脑推出的定制化AI训练及服务平台，支持面向各行各业有定制AI需求的企业用户及开发者使用。支持从数据管理与数据标注、模型训练、模型部署一站式AI开发流程。

使用：

【训练模型来使用】
训练网址

百度已经有了语义分割模型，提供接口，训练出来的数据无法直接进行修改

步骤：

创建数据集
上传数据并框出目标物体（至少5个框，不方便绘制）
训练模型

其它文献

超像素分割(superpixels segmentation)

超像素就是把一幅原本是像素级(pixel-level)的图，划分成区域级(district-level)的图。是一种对基本信息进行的抽象。

环境下载

pip install scikit-image

代码文章：文章

# import the necessary packages
from skimage.segmentation import slic
from skimage.segmentation import mark_boundaries
from skimage.util import img_as_float
from skimage import io
import matplotlib.pyplot as plt
import argparse

# construct the argument parser and parse the arguments
ap = argparse.ArgumentParser()
ap.add_argument("-i", "--image", required = True, help = "Path to the image")
args = vars(ap.parse_args())

# load the image and convert it to a floating point data type
image = img_as_float(io.imread(args["image"]))

# loop over the number of segments
for numSegments in (100, 200, 300):
	# apply SLIC and extract (approximately) the supplied number
	# of segments
	segments = slic(image, n_segments = numSegments, sigma = 5)

	# show the output of SLIC
	fig = plt.figure("Superpixels -- %d segments" % (numSegments))
	ax = fig.add_subplot(1, 1, 1)
	ax.imshow(mark_boundaries(image, segments))
	plt.axis("off")

# show the plots
plt.show()

论文1：A First Derivative Potts Model for Segmentation and Denoising Using ILP
论文2：COCO-Stuff: Thing and Stuff Classes in Context

1000 segments

5000 segments

PolygonRNN++

采用了一种不同于像素标注的方法，而是将目标分割看做是一个多边形预测的问题（polygon prediction problem），然后基于深度学习实现“半自动化”目标事例的标注。

代码：GitHub
演示：demo
论文：Efficient Interactive Annotation of Segmentation Datasets with Polygon-RNN++

PolygonRNN++

Curve-GCN

Curve-GCN是一种高效交互式图像标注方法，其性能优于Polygon-RNN++。在自动模式下运行时间为29.3ms，在交互模式下运行时间为2.6ms，比Polygon-RNN ++分别快10倍和100倍。

代码：GitHub
论文1：Fast Interactive Object Annotation with Curve-GCN

在Curve-GCN中，注释器会选择一个对象,然后选择多边形或样条轮廓。Curve-GCN自动地勾勒出对象的轮廓。

Curve-GCN允许交互式更正,并且可以自动重新预测多边形/样条，与Polygon-RNN + +相比：

Curve-GCN具有多边形或样条曲线参数
Curve-GCN可同时预测控制点（更快）

Faster RCNN

代码：GitHub
论文1：Faster RCNN
参考文章

Conv layers。作为一种CNN网络目标检测方法，Faster RCNN首先使用一组基础的conv+relu+pooling层提取image的feature maps。该feature maps被共享用于后续RPN层和全连接层
Region Proposal Networks。RPN网络用于生成region proposals。该层通过softmax判断anchors属于positive或者negative，再利用bounding box regression修正anchors获得精确的proposals
Roi Pooling。该层收集输入的feature maps和proposals，综合这些信息后提取proposal feature maps，送入后续全连接层判定目标类别
Classification。利用proposal feature maps计算proposal的类别，同时再次bounding box regression获得检测框最终的精确位置

Sort
SORT最大特点是基于Faster R-CNN的目标检测方法，并利用卡尔曼滤波算法+匈牙利算法，极大提高了多目标跟踪的速度，同时达到了SOTA的准确率

数据集色号

Cityscapes

KITTI
KITTI
ApolloScape

数据颜色问题

图片查看边缘有自动模糊(边缘虚化、过渡色)
用 Win10 “照片” 和其它部分照片软件查看都有这样的情况
示例如下(模糊)：

拿 Windows照片查看器(传统的)查看，则没有自动模糊(边缘虚化、过渡色)
示例如下(清晰)：

win10默认不能选择(win7可以)Windows照片查看器，需要添加注册表(照片查看器.reg)

Windows Registry Editor Version 5.00

 ; Change Extension's File Type

 [HKEY_CURRENT_USER\Software\Classes\.jpg]

 @="PhotoViewer.FileAssoc.Tiff"

 ; Change Extension's File Type

 [HKEY_CURRENT_USER\Software\Classes\.jpeg]

 @="PhotoViewer.FileAssoc.Tiff"

 ; Change Extension's File Type

 [HKEY_CURRENT_USER\Software\Classes\.gif]

 @="PhotoViewer.FileAssoc.Tiff"

 ; Change Extension's File Type

 [HKEY_CURRENT_USER\Software\Classes\.png]

 @="PhotoViewer.FileAssoc.Tiff"

 ; Change Extension's File Type

 [HKEY_CURRENT_USER\Software\Classes\.bmp]

 @="PhotoViewer.FileAssoc.Tiff"

 ; Change Extension's File Type

 [HKEY_CURRENT_USER\Software\Classes\.tiff]

 @="PhotoViewer.FileAssoc.Tiff"

 ; Change Extension's File Type

 [HKEY_CURRENT_USER\Software\Classes\.ico]

 @="PhotoViewer.FileAssoc.Tiff"