《小超教你写论文》系列第三篇-Caltech PedestrianBenchmark介绍(小弟认为,目前最好用的数据库)
这里是《小超教你写论文》系列第三篇。众所周知,做ComputerVision研究最重要的是数据库。由于CV主要处理图片和视频,所以数据容量会非常大,又由于CV研究多是目的依赖型,所以不同场景同一算法的performance可能会差很多,因此一个内容丰富且国际通用的数据库就很重要。
如果你真在做有关行人检测的研究,无论你现在是用的INRIA数据库还是PASCAL数据库,我都建议你使用Caltech PedestrianBenchmark数据库,它是由Caltech(加州理工,梦想中的学校,泰晤士报排名世界第一,高于牛津,斯坦福,哈佛)的一个视觉小组整理的,有着丰富的标注,也极具挑战性。
下面对Caltech Pedestrian Benchmark做个简单介绍,更详细内容可以参照2012年的PAMI。
为了形成数据库,作者收集了仅10小时的30Hz视频(约百万帧),视频在市区场景下行驶的汽车上的相机拍摄。而后从10小时的视频中,作者选取了137分钟,约250000帧图像,里面约含2300个单独行人,作者标注了350000个BBs(bounding box)。完成整个工作耗费了作者400小时时间,外国研究人员的努力令人胆颤啊,小弟已跪拜。
通过上面,我们可以看到此数据库数据量还是可以的(目前最大),那么类型是否足够丰富呢,作者在文章中有着详细介绍,这里转述一下。
1.尺寸方面
一般的数据库中行人大小在100pixel左右,如INRIA平均279,ETH平均90,而真正在实际应用中,根据图1的scene geometry,以时速55Km/h计算,我们可以算的pedestrian在30到80pixel之间才能给司机提供足够预警时间。而30到80像素的行人正是Caltech的最主要行人数据,在其中占到69%,且benchmark的平均行人高度为48,符合实际情况。
2.遮挡方面
一般数据库中,只给出正当后的标注,而Caltech他们不但标出了遮挡的行人,还标出了可见部分和整体部分。这样,我们就可以将数据库根据遮挡情况分为不同的类型,如没遮挡,部分遮挡,严重遮挡等进行研究。
3位置方面
这个方面的统计数据,对于算法研究没有很重要意义,但是对于实际应用是种启示。因为如果实际application中真的装在车上,那么行人在27度视场角情况下,一般分布在视场中部。
之所以推荐这个数据库,除了数据库本身特点外,还因为作者用此数据库测试了几乎全部主流行人检测算法,且测试结果放在了网站上,非常方便我们进行对比。
另外,既然是将写文章的系列,最终还是要回到写文章上。写文章最重要的不是确定算法,或是提出模型,最重要的是寻找问题和切入点。那么,行人检测,或是此数据上的研究有哪些问题和切入点呢?作者为了促进研究,也给我们总结了7点,小弟窃取出来,大家一起研究啊。
1.小尺寸 换句话说,就是低分辨率。由以上可知,在实际应用中,低分辨率是很重要且必须解决的问题,但由于以前数据库的原因,大多研究集中在较高分辨率的行人部分,有了Caltech数据库,希望大家能看重并解决这个问题。
2.遮挡 遮挡问题由来已久,研究也不少。但以前没有数据库将遮挡问题做出这么详细的分类,因此,Caltech数据库的出现更方便了大家的研究。
3运动 自古,检测和跟踪不分家,两者还可以互相促进。还记得有大神在HOG之后直接提出HOF,利用能表示运动的光流场来作为特征。行人,Pedestrian,不是Human,特征之一就是motion。能利用motion最为特征,是很好的创新点。
4短时整体 与3中思想一样,虽然检测不同于跟踪,但若能结合两者特征,从几帧,即从短时整体的角度去看待问题,一定会有不小的收获哦。
5上下文 马克思主义哲学说,万事万物都是有联系的。找到其中的联系,我们就能有更强的能力,整体和部分,内部和外界,过去和现在和未来,找到联系,找到上下文,就能取得更好的效果。
6新型特征 特征是一种模型,爱因斯坦说所有模型都是错误的。所以,小弟敢说,所有特征都是不完美的,一定有更好的特征存在。当然,大家都知道这有多难,但你想想,一个新颖的特征,能直接将你送到学术顶尖位置,想想都爽。。。。这个创新点,很好很强大,你们努力吧,小弟自认资质愚钝,这个方面就不想了
7数据 现在,大部分研究都是基于INRIA数据库的,作者希望大家能使用Caltech数据库。将你的算法在新的数据库上试试,思考一下结果的问题和原因,说不定能发现算法缺陷,或迸发出新的想法呢。
好了,《小超教你写论文》系列第三篇就写到这了,总之,强烈向所有做行人检测的人推荐Caltech数据库。第四篇本来准备写第一篇文章对应的代码实现及解析呢,但现在想想没有时间了,还是赶紧想想自己文章的创新点和算法吧。所以,下一篇,应该是新文章的创新点探索分析讲解。
忘了说了,数据库在作者网站上有,网址在文中链接的PAMI文章中有。