实战案例丨ModelArts在数据标注、数据过滤上的应用技巧：自动分组

华为云开发者联盟

于 2020-07-25 10:22:46 发布

阅读量2.7k

点赞数 2

分类专栏：技术交流文章标签： ModelArts 标注数据过滤自动分组数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/devcloud/article/details/107574805

版权

技术交流专栏收录该内容

3532 篇文章 357 订阅

订阅专栏

分组标注场景

大量复杂、乱序的图片依次标注效率极低，如果一次可以标注一大片的图片将极大地提升标注效率。

自动分组识别并提取图像特征，通过ModelArts先进的聚类算法可以将所有图片分组：将特征相似的图片归为一类，将特征差别大的图片群分离。

在花朵识别项目中，需对大量无标注的花朵图片进行标注，依次乱序标注蒲公英、郁金香、向日葵等将耗费大量宝贵时间

启动自动分组，我们事先知道花朵数据集中存在5个类别，为他们分组6类（聚类算法不能保证一定将5类别完全区分出来，需更细化地分组，于是往往分组数需大于实际类别数）：

过约3分钟后，通过筛选条件，我们可以得到自动分组的结果，如第1类几乎都是郁金香的图片，第3类几乎都是蒲公英的图片。

第1类

第3类

于是选择当前页 -> 输入蒲公英 ，即可直接对他们一次性进行标注。

当然并不是每个组都是完美的，如一个组中大多都是向日葵，但还夹杂着非洲菊 。此时选择当前页后，去掉相应非向日葵图片左上角的勾即可：

数据过滤场景

现实中的真实图像数据量少，往往无法满足深度学习网络训练数据量的要求，于是开发者们一般选择网络爬取需要的图片，但爬取下来的图片风格迥异、噪声杂多，想要从中提取需要的图片工作量是巨大的。

ModelArts提供的自动分组算法除了在分组标注上功能强大，在数据过滤场景上也是奇技淫巧 。

在安全帽项目中，由于实际安全帽图像过少，从谷歌爬取了大量安全帽相关图像（约3000张）：

但是这些并不全是我们想要的“安全帽”，我们需要工地为背景，且工人类型的安全帽。

于是在自动分组中我们对这些图像细分为10个组（越大的分组数对数据集分组越细，能分离出更多噪声图像），以下为部分组的展示：

第0组

第1组

第4组

第9组

显然类似第1组和第9组的图片才是我们需要的结果，第1组和第4组浏览大致后可以全部删除，选择当前页并删除：

删掉噪声图像后，只剩下约1600张，过滤了快50%的图像：

当然如果还存在很多噪声，我们继续进行分组，对剩下的1640张图再自动分组10个类

可以看到，依旧有许多与安全帽不相干的图像如：

再一次浏览所有分组，对数据进行清洗，最终只剩下1008张图像，过滤了约65%的噪声图像，极大地降低了标注的压力。

点击这里→了解更多精彩内容

华为云开发者联盟

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
实战案例丨ModelArts在数据标注、数据过滤上的应用技巧：自动分组

大量复杂、乱序的图片依次标注效率极低，如果一次可以标注一大片的图片将极大地提升标注效率。自动分组识别并提取图像特征，通过ModelArts先进的聚类算法可以将所有图片分组：将特征相似的图片归为一类，将特征差别大的图片群分离。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。