Data process
数据处理中的常用方法和技巧
粼粼淇
淇水汤汤,波光粼粼。岸芷汀兰,郁郁青青。
从事计算机视觉,机器学习等方面算法的工作,爱好数学、算法、编程、中国古典文学、哲学,喜欢旅游,爱思考、爱推理;追求卓越、追求极致。
展开
-
判断一幅图像是否是红外的python程序
判断一幅图像是否是红外还是可见光,直接在rgb颜色空间不好弄,需要转化到hsv空间进行判别,具体就是统计s通道的值是否为0或接近0,这样一来可以直接加和s通道的值,然后取个均值,最后给个阈值,当之歌均值小于给定阈值时,就可以认为这幅图像就是红外的,具体python程序如下:import os,sysimport numpy as npdef judgeimingmode(impath): infraredthresh=10 im = cv2.imread...原创 2020-07-03 16:42:58 · 1452 阅读 · 1 评论 -
解析Open Image 数据小记
最近需要去检索一些车辆的图片,据说Open Image的图片量比较大,所以准备去这个数据集上下载点,想着这是google弄得数据,本以为这比较方便,没想到中途遇到了些问题,哎想法是美好的,过程是坎坷的。 首先吐槽一下,现在数据格式真是五花八门,就说几种常见的数据集吧1、VOC标记信息采用的是xml格式,类别名直接命名;2、COCO标记信息采用json格式,类别名...原创 2019-09-22 15:41:24 · 1794 阅读 · 1 评论 -
标注精灵标注的多边形json格式转化为labelme的多边形json格式
由于标注精灵不需安装,而labelme安装有些麻烦,刚开始标注多边形的数据时使用标注精灵,但是这破软件使用不友好,标注后修改极为麻烦,实在难以忍受他了,改用labelme了,但是前面标注了一些数据json格式和labelme完全不一样,怎么才能转化到labelme,对一个稍微熟悉json格式的人来说,这其实so easy,下面记录一下。 1、标注精灵的多边形json格式如...原创 2020-03-07 18:40:00 · 1415 阅读 · 0 评论 -
从百度上批量爬取指定关键字的图片python程序
最初始的文件是从网上copy了一份,原始忘记出自哪里,后面找到了补上,以感谢初始的分享者,但这个文件只能单个单个关键字图片下载,不能批量,而且程序本身也有些小问题,我在原始上做了好些修改和整合,最终汇总如下:DownImFromWebsite.pyimport reimport requestsfrom urllib import errorfrom bs4 imp...原创 2020-01-13 15:29:34 · 801 阅读 · 0 评论 -
图片非正常扩展名解析转化和转化为jpg格式
在实际中可能常遇到这样的情况:有一些图片数据,但它们的扩展名不正常以至于不能正常显示,还有可能需要把图片格式统一下以方便文件管理。 举个栗子:上面这些图片数据,很多是真正的图片,但是由于其扩展名不正常导致无法显示,这需要我们解析一下。我前两张数据做个示例,你看第一个数据文件的名称为:00a3bb57f00814a84ef88ac2e9e2dca0.png%21...原创 2020-01-13 14:38:59 · 609 阅读 · 0 评论 -
从VOC,ImageNet,COCO,OpenImage等数据集中挑选自己需要的类别数据
VOC,ImageNet,COCO,OpenImage是CV行业常用的开源数据集,其中VOC比较古老了,ImageNet名气最响,种类和图片量较多,OpenImage种类和图片量最大,COCO介于他们之间吧。很多时候我们并不需要这些数据集中的所有数据,而是其中一小部分,因此需要从原始数据中挑选出自己需要的类别数据,下面就来我在这些数据集合中挑选我需要类别的一点小结。 首...原创 2019-12-20 15:05:00 · 3955 阅读 · 0 评论 -
深度学习中自己标注数据的一些总结
深度学习严重依赖于海量的数据,因此很多时候我们都是在别人训练好的model上进行迁移学习然后在自己的数据集上精细调节,不同的行业任务不同,因此很多时候常见开源数据集如VOC,ImageNet,COCO,OpenImage等数据是不能用的,要进行训练学习,就得制作自己的数据集。 刚开始可能很多人像我一样认为给图像打标签,拉bound boxes有啥难的,但自己真正干起...原创 2019-12-20 10:47:22 · 8490 阅读 · 0 评论