机器视觉的专家要做的一件很重要的事情就是判断使用哪种标注工具获得的训练数据可以得到最准确的模型。
你可能会用完全不同的标注发方法来处理一批同样的原始数据或者为了另外的算法完全重新标注原始数据来得到更高的模型准确率。
在 MindFlow,我们针对人工智能的企业采用更人性化的服务。
在和客户交谈的过程中,我们经常会被问到针对某个特定的项目,我们推荐什么样的标注工具。我们已经帮助通过庞大的标注任务帮助客户解决了多种多样的应用案例。
当在大规模的构建自己的标注好的训练数据集时,有必要熟悉一下正确的标注工具和它们的用处,例如其他的AI企业是怎么收集训练数据的,他们如何选择标注工具类型应用在特定的项目中。
但是你的项目应该使用哪种标注形式?这取决于你的产品、项目的应用落地点。
1. 2D框标注 Bounding Box:
正像它的名字一样,标注员工需要在指定的物体周围画一个框。一般训练用于物体分类和定位的模型。
应用场景:
运动分析-框选出足球运动员然后为他们归类到特点的组;框选出施工现场的工具用来分析施工现场是否符合安全标注;框选损坏的车部位,为保险理赔提供依据等。
//rectangles (To be corrected)
"rectangles": [{
"coordinates": {
"xmin": 0.38,
"ymin": 0.19,
"xmax": 0.57,
"ymax": 0.44
},
"label": "car"
}]
2. 多边形分割标注:
多边形工具一般用来标注不规则的物体。和框标注不同,多边形标注不会在目标物体周围有很多无关的空白或者其他的物体(多余的空白或者物体可能会让机器模型困惑)。多边形标注在训练定位模型时,会更加准确。
//polygons - We can share both JSON metadata & masked images
"polygons": [{
"points": {
"p1": { "x": 0.17, "y": 0.58 },
"p2": { "x": 0.26, "y": 0.63 },
"p3": { "x": 0.27, "y": 0.63 },
"p4": { "x": 0.29, "y": 0.59 },
"p5": { "x": 0.25, "y": 0.46 },
"p6": { "x": 0.22, "y"