Synthtext数据
最近碰到Synthtext数据,没查到关于坐标的解释,所以自己研究了一下,完全原创。
Synthtext里面的gt.mat包含如上字典的键,我们那wordBB来说明一下。
这是wordBB[0][0]是内容,对应得是mat[“imnames”][0][0]的[‘8/ballet_106_0.jpg’]图片,这个张图片里面的英文单词对应txt[0][0]
到这也就清楚了gt.mat里面的内容。
坐标操作
首先wordBB里面的内容是图片每个单词的位置坐标,大家可以看到上面坐标图片里面中间空了一段,其实坐标分成了两部分,空段上面是单词的x坐标,下面试单词的y坐标,并且一 一对应,而且坐标的顺序是单词的四个坐标,以左顶点为起始点,顺时针描述。
至此坐标已解释完全。
如果需要在图片上划分出单词的区域并制作标签可以参考如下代码:
到这就自定义了一个数据预处理的代码了。接下来看看效果
效果还算可以。
学生党一枚,如有错误请给我留言,非常感谢!