本主要讲述计算机视觉中前视图到BEV图的转换。
其主要贡献如下:
1、利用Script Hook V library库, 基于Grand Theft Auto V (GTAV)相关方法构建了一个采集框架,构建了一个游戏镜头在正面和鸟瞰视图的数据集
2、构建了一种深度学习的方式,分别使用resnet50提取目标(crop)的语义信息,encoder编码提取目标的坐标信息,两个信息结合后进行decoder,然后获取BEV视角下的坐标
数据集分布如下:
数据集的部分展示:
模型如下所示:
整体模型相对比较简单,总计两个branch,上面一个branch1对于目标检测得到的目标,裁剪出相应的物体(如汽车),并resize到224*224(resnet50的输入需求),然后利用resnet50(去除后面用于分类的层级)进行特征的提取;对于下面的branch2,对于在前视图中的汽车的的位置,来利用MLP网络进行encoder编码到256维,并将上面branch1的语义信息和branch2获取的坐标信息进行concat,最后使用MLP进行解码操作,完成在BEV图的坐标映射。
模型效果展示:
数据和代码可以在如下地方下载:Learning to Map Vehicles into Bird’s Eye View