X-AnyLabeling: 一款多SOTA模型集成的高精度自动标注工具!

作者 | 派派星  编辑 | CVHub

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

点击进入→自动驾驶之心【AIGC】技术交流群

Github: https://github.com/CVHub520/X-AnyLabeling

简介

a8fae6cf96f5f1e0034cbea79148dd63.png

X-AnyLabeling 是一款全新的交互式自动标注工具,其基于AnyLabeling进行构建和二次开发,在此基础上扩展并支持了许多的模型和功能,并借助Segment AnythingYOLO等主流模型提供强大的 AI 支持。无须任何复杂配置,下载即用,支持自定义模型,极大提升用户标注效率!

AnyLabeling = LabelImg + Labelme + Improved UI + Auto-labeling

特性

目前第一版提供以下功能,后期计划加入多模态大模型,满足更广泛的需求:

  • 支持多边形、矩形、圆形、直线和点的图像标注。

  • 支持文本检测、识别和KIE(关键信息提取)标注。

  • 支持检测-分类级联模型进行细粒度分类。

  • 支持一键人脸和关键点检测功能。

  • 支持PaddlePaddle、OpenMMLab、Pytorch-TIMM等主流深度学习框架。

  • 支持转换成标准的COCO-JSONVOC-XML以及YOLOv5-TXT文件格式。

  • 提供先进的检测器,包括YOLOv5YOLOv6YOLOv7YOLOv8YOLOX以及DETR系列模型。

a1c9e5fef12bcbbbb1e3766a5c7f447e.png
目标检测
3453164f5a2f5bdd8d601ac5670e9fcf.png
检测+分类
ad531b0a80e0a28e8bb8d53ee042ce4a.jpeg
人脸+关键点检测

...

安装

下载和运行可执行文件

整个安装及使用教程都很简单,目前已在Windows系统上编译成可执行软件,可直接在release页面直接下载使用。其他平台可根据以下指令自行打包即可:

  1. 安装 PyInstaller

pip install -r requirements-dev.txt
  1. 构建

bash build_executable.sh

请注意,在运行之前,请根据本地conda环境在anylabeling.spec文件中替换'pathex'。

  1. 移步至目录 dist/ 下检查输出。

源码编译

  1. 安装依赖包

pip install -r requirements.txt
  1. 生成资源

pyrcc5 -o anylabeling/resources/resources.py anylabeling/resources/resources.qrc
  1. 运行应用程序

python anylabeling/app.py

框架

添加模型推理是自动化标记任务的关键。AnyLabeling 的早期版本完成对 Segment Anything 模型的支持。模型推理架构如下图所示:

244dbcf53c295c7b49144df690a4001f.png

AnyLabeling的架构中,LabelingWidget是任何功能的主要小部件。绘图区域由Canvas类处理。AutoLabelingWidget则作为自动标记功能和ModelManager的主要部件用于管理和运行 AI 模型。

SAM

SAM 是 Meta 的新细分模型。使用 11M 图像和 1B 分割掩码进行训练,它可以在不针对特定对象进行训练的情况下分割图像中的对象。出于这个原因,Segment Anything 是自动标记的一个很好的候选框,即使是从未见过的新对象。

优化点:
  1. 因为Encoder的计算是需要时间的,所以我们可以把结果缓存起来,也可以对Encoder在以后的图片上做预计算。这将减少用户等待编码器运行的时间。

  2. 对于缓存,添加了一个 LRU 缓存来保存编码器的结果。图像保存在缓存中,键是标签路径。当缓存中存在图像嵌入时,不会再次运行编码器,这样可以节省很多时间。缓存大小默认为 10 张图像。

  3. 对于预计算,创建一个线程来为下一个图像运行编码器。当加载新图像时,它将和下一张图像一起发送到工作线程进行编码器计算。之后,image embedding会缓存到上面的LRU缓存中。如果图像已经在缓存中,工作线程将跳过它。

使用步骤
  1. 选择左侧的Brain按钮以激活自动标记。

  2. 从下拉菜单Model中选择Segment Anything Models类型的模型。模型精度和速度因模型而异。其中,Segment Anything Model (ViT-B)是最快的但精度不高。Segment Anything Model (ViT-H)是最慢和最准确的。Quant表示量化过的模型。

  3. 使用自动分割标记工具标记对象。

  • +Point:添加一个属于对象的点。

  • -Point:移除一个你想从对象中排除的点。

  • +Rect:绘制一个包含对象的矩形。Segment Anything 将自动分割对象。

  • 清除:清除所有自动分段标记。

  • 完成对象(f):当完成当前标记后,我们可以及时按下快捷键f,输入标签名称并保存对象。

注意事项
  • X-AnyLabeling 在第一次运行任何模型时,需要从服务器下载模型。因此,可能需要一段时间,这具体取决于本地的网络速度。

  • 第一次 AI 推理也需要时间。请耐心等待。

  • 后台任务正在运行以缓存 Segment Anything 模型的“编码器”。因此,在接下来的图像中自动分割工作需要时间会缩短,无须担心。

集成方式

Segment Anything Model 分为两部分:一个很heavy的编码器和一个lightweight解码器。编码器从输入图像中提取图像嵌入。基于嵌入和输入提示(点、框、掩码),解码器生成输出掩码。解码器可以在单掩码或多掩码模式下运行。

da54b9c98125c66905a410a10a1609f0.png

在演示中,Meta 在服务器中运行编码器,而解码器可以在用户的浏览器中实时运行,如此一来用户便可以在其中输入点和框并立即接收输出。在本项目中,我们还为每个图像只运行一次编码器。之后,根据用户提示的变化(点、框),运行解码器以生成输出掩码。项目添加了后处理步骤来查找轮廓并生成用于标记的形状(多边形、矩形等)。

文本 OCR 标签

文本 OCR 标签是许多标注项目中的一项常见任务,但遗憾的是在 Labelme 和 LabelImg 中仍然没有得到很好的支持。AnyLabeling 中完美支持了这一项新功能。

20df81fdb953b02884edd66e5419bcd7.png

第一个版本支持以下标签工具:

图像文本标签

用户可以切换到编辑模式并更新图像的文本——可以是图像名称或图像描述。

文本检测标签

当用户创建新对象并切换到编辑模式时,可以更新对象的文本。

文本分组

想象一下,当使用 KIE(键信息提取)时,需要将文本分组到不同的字段中,包含标题和值。在这种情况下,你可以使用文本分组功能。当创建一个新对象时,我们同样可以通过选择它们并按G将其与其他对象组合在一起。分组的对象将用相同的颜色标记。当然,也可以按快捷键U取消组合。

注:标注的文本和分组信息将与其他标注保存在同一个 JSON 文件中。文本将保存在text对象的字段中,组信息将保存在字段中group_id

检测分类模型

这一块相比比较简单。我们主要讲解下如何加载自定义模型,这将使你能够使用自己的模型进行自动标记。如果你有一个已根据自己的数据训练过的自定义模型并希望将其用于自动标记,这将非常有用。此外,还可以创建一个标签 - 训练循环来逐步改进私有模型。通常来说,笔者建议在项目初期阶段可以基于 SAM 利用点或矩阵提示快速完成数据标注,等后期达到一定数据量训练完一个初版模型后再基于检测或检测+分类模型进行一键自动标注。

准备模型文件

通常来说,我们首先需要将训练好的模型统一转换成onnx文件格式,以下是第一版支持的版本分支:

yolov5-v6.0+
yolov6-v0.4.0
yolov6Face-v0.4.0
yolov7-main
yolov8-main
yolox-main

如果你是基于以上分支训练并转换得到的onnx文件,可以直接进行后续步骤,否则可能需要修改源码以进行相应的适配。

创建配置文件

config.yaml在与模型相同的文件夹中创建 YAML 格式的模型配置文件。配置文件需要遵循以下格式:

  • rtdetr_r50.yaml(目标检测)

type: rtdetr
name: rtdetr_r50-r20230520
display_name: RT-DETR (ResNet50) PaddleDetection
model_path: https://github.com/CVHub520/X-AnyLabeling/releases/download/v0.1.0/rtdetr_r50vd_6x_coco.onnx
input_width: 640
input_height: 640
score_threshold: 0.45
classes:
  - person
  - bicycle
  - car
  ...
  • yolov6lite_s_face.yaml(人脸及关键点检测)

type: yolov6_face
name: yolov6lite_s_face-r20230520
display_name: YOLOv6Lite_s-Face MeiTuan
model_path: https://github.com/CVHub520/X-AnyLabeling/releases/download/v0.1.0/yolov6lite_s_face.onnx
input_width: 320
input_height: 320
stride: 64
nms_threshold: 0.45
confidence_threshold: 0.4
classes:
  - face
five_key_points_classes:
  - left_eye
  - right_eye
  - nost_tip
  - left_mouth_corner
  - right_mouth_corner
  • yolov5s_resnet50.yaml(检测+分类级联)

type: yolov5_cls
name: yolov5s_resnet50-r20230520
display_name: YOLOv5s-ResNet50
det_model_path: https://github.com/CVHub520/X-AnyLabeling/releases/download/v0.1.0/yolov5s.onnx
cls_model_path: https://github.com/CVHub520/X-AnyLabeling/releases/download/v0.1.0/resnet50.onnx
det_input_width: 640
det_input_height: 640
cls_input_width: 224
cls_input_height: 224
cls_score_threshold: 0.5
stride: 32
nms_threshold: 0.45
confidence_threshold: 0.45
det_classes:
  - person
  - bicycle
  - car
  ...
cls_classes:
  0: tench
  1: goldfish
  2: great white shark
  3: tiger shark

需要注意的是,这里检测+分类仅提供样例模板给大家,模型yolov5resnet中涉及到的类别分别是cocoimagenet上预训练得到的权重,大家需要根据自身任务重新训练新的模型进行替换。

开启自动标注
  1. 新建一个文件夹,将上述转换好的onnx权重和对应的配置文件存放到同一目录下。(非必须,但方便管理)

  2. 将 yaml 文件中 model_path 字段设置为 onnx 模型所在的绝对路径。

  3. 在自动标记模式下,从自动下拉列表中选择加载自定义模型,如图所示:

33b339f0d2f8a8d3404289a29099f459.png
  1. 选择相应的配置文件。

  2. 点击“运行”或按下快捷键i是实现一键标注功能。

eda62422b7436b4a5d46c41b7a335e91.jpeg

总结

本文主要为大家介绍一款新颖实用的基于交互式的全自动标注工具——X-AnyLabeling,更多功能和特性可直接下载体验!

源码链接:https://github.com/CVHub520/X-AnyLabeling

视频教程:https://www.bilibili.com/video/BV1AV4y1U7h3/?spm_id_from=333.999.0.0&vd_source=938654fc70710bf1d11daa4b779d2418

(一)视频课程来了!

自动驾驶之心为大家汇集了毫米波雷达视觉融合、高精地图、BEV感知、多传感器标定、传感器部署、自动驾驶协同感知、语义分割、自动驾驶仿真、L4感知、决策规划、轨迹预测等多个方向学习视频,欢迎大家自取(扫码进入学习)

e977197ec6ada51323a571146f848ad9.png

(扫码学习最新视频)

视频官网:www.zdjszx.com

(二)国内首个自动驾驶学习社区

近1000人的交流社区,和20+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(分类、检测、分割、关键点、车道线、3D目标检测、Occpuancy、多传感器融合、目标跟踪、光流估计、轨迹预测)、自动驾驶定位建图(SLAM、高精地图)、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

ea65c520a3bb6954c8a2041837cfaad5.jpeg

(三)自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向;

7e2eec7c8369056d29bf7d37e23d4abc.jpeg

添加汽车人助理微信邀请入群

备注:学校/公司+方向+昵称

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值