BEV和Transformer的前世今生

说到纯视觉的自动驾驶方案,大家第一个想到的就是Tesla吧。的确,早在2021年,Tesla就已经实现了纯视觉的BEV检测方案,而且效果非常好。

d31d46d6f1c5aef03e22594d93534f86.png

细心的同学可能发现了,这套BEV方案中将相机空间的图像转换到BEV空间的核心组件就是Transformer。

Transformer来源于自然语言处理领域,首先被应用于机器翻译。后来,大家发现它在计算机视觉领域效果也很不错,而且在各大排行榜上碾压CNN网络。

b00bb872e79be9ef7def76f9672fc3a1.png

目标检测领域中,视觉Transformer不仅可以实现2D检测、3D检测,还可以实现多模态检测,BEV视角下的检测,性能也非常出色。

48f9030e9b92324847f2e5f5c75be39c.png

因此,掌握Transformer相关知识和工程基础成为了企业招聘算法工程师的一个技能要求点,也是简历上的一个很大的加分项。

然而,想要掌握基于Transformer的目标检测算法,有以下3个难点

  • 理解Transformer背后的理论基础,比如自注意力机制(self-attention), 位置编码(positional embedding),目标查询(object query)等等,网上的资料比较杂乱,不够系统,难以通过自学做到深入理解并融会贯通。6e0b8405dfe779da3ffaeb5cdb549a4f.png

  • 掌握基于Transformer的目标检测算法的思路和创新点,一些Transformer论文涉及的新概念比较多,话术没有那么通俗易懂,读完论文仍然不理解算法的细节部分。

ee409e1bb6c1237934e309029a67d5e9.png
2
  • Transformer代码不易看懂,因为作用机制与CNN有不少差别,所以完全理解代码并实践应用需要花费很大功夫。

b4bec4f683f10582e2a01b937b65b921.png
3

那么如何学习基于Tansformer的目标检测算法呢?

3D视觉工坊联合讲师「语嫣」,为大家精心准备了课程「目标检测中的视觉Transformer」,主要帮助各位同学解决以上这些难点。

不仅为大家详细讲解视觉Transformer的基础知识,各种经典的基于Transformer的目标检测算法,还配有代码解读和实践课程,让大家真正活学活用,理解和掌握这些知识理论。

实践部分

101682014737b802b23f041f1b25595f.png 07ceb705592e5be8223bf024c51c8b0f.png 4efee50eddccdcb0baa5140e82212e57.jpeg 6cdde7e6e06b801e2027439a93425707.jpeg d32eece9474d4761495eabe83585c720.jpeg 5b910341bccc44c3024229b7f2752503.jpeg 4d32436b103e9c8dbf1f29753c53ed22.png e6e79629f815bd9a4ad4c08ef50073cb.png 82f03f5b9927cfcd8506068b5fb76bb1.png

245271fb82f09216c07d79cf2671f669.png

b4720c17d0ff329eecec3e3cf4be66db.jpeg 82fc5b0389fc227ee7948c607ab991ef.jpeg bfa727c2f85359a8bbeebf1882acc563.jpeg

开课时间

2023年7月28日晚八点(周五),每周更新一章节。

课程答疑

本课程答疑主要在本课程对应的鹅圈子中答疑,学员学习过程中,有任何问题,可以随时在鹅圈子中提问。

41e58fc6b7abc3fd8b4f990a7de976a9.png
▲长按购买课程, 前50名,享早鸟价,立减30元
ed3ba4a91bd8632d0f14d9cbc0232f51.jpeg
▲长按添加小助理微信:cv3d007,咨询更多
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值