论文阅读--Learning to Map Vehicles into Bird’s Eye View

本主要讲述计算机视觉中前视图到BEV图的转换。

其主要贡献如下:
1、利用Script Hook V library库, 基于Grand Theft Auto V (GTAV)相关方法构建了一个采集框架,构建了一个游戏镜头在正面和鸟瞰视图的数据集
2、构建了一种深度学习的方式,分别使用resnet50提取目标(crop)的语义信息,encoder编码提取目标的坐标信息,两个信息结合后进行decoder,然后获取BEV视角下的坐标

数据集分布如下:
在这里插入图片描述

数据集的部分展示:
在这里插入图片描述
在这里插入图片描述

模型如下所示:
整体模型相对比较简单,总计两个branch,上面一个branch1对于目标检测得到的目标,裁剪出相应的物体(如汽车),并resize到224*224(resnet50的输入需求),然后利用resnet50(去除后面用于分类的层级)进行特征的提取;对于下面的branch2,对于在前视图中的汽车的的位置,来利用MLP网络进行encoder编码到256维,并将上面branch1的语义信息和branch2获取的坐标信息进行concat,最后使用MLP进行解码操作,完成在BEV图的坐标映射。
在这里插入图片描述
模型效果展示:
在这里插入图片描述
在这里插入图片描述

数据和代码可以在如下地方下载:Learning to Map Vehicles into Bird’s Eye View

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI小花猫

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值