论文阅读--Learning to Map Vehicles into Bird’s Eye View

最新推荐文章于 2024-10-01 16:34:08 发布

AI小花猫

最新推荐文章于 2024-10-01 16:34:08 发布

阅读量1.1k

点赞数

文章标签：论文阅读深度学习计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/caobin_cumt/article/details/127473906

版权

本主要讲述计算机视觉中前视图到BEV图的转换。

其主要贡献如下：
1、利用Script Hook V library库，基于Grand Theft Auto V (GTAV)相关方法构建了一个采集框架，构建了一个游戏镜头在正面和鸟瞰视图的数据集
2、构建了一种深度学习的方式，分别使用resnet50提取目标（crop）的语义信息，encoder编码提取目标的坐标信息，两个信息结合后进行decoder，然后获取BEV视角下的坐标

数据集分布如下：
在这里插入图片描述

数据集的部分展示：
在这里插入图片描述

模型如下所示：
整体模型相对比较简单，总计两个branch，上面一个branch1对于目标检测得到的目标，裁剪出相应的物体（如汽车），并resize到224*224（resnet50的输入需求），然后利用resnet50（去除后面用于分类的层级）进行特征的提取；对于下面的branch2，对于在前视图中的汽车的的位置，来利用MLP网络进行encoder编码到256维，并将上面branch1的语义信息和branch2获取的坐标信息进行concat,最后使用MLP进行解码操作，完成在BEV图的坐标映射。
在这里插入图片描述
模型效果展示：

数据和代码可以在如下地方下载：Learning to Map Vehicles into Bird’s Eye View

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

AI小花猫 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。