图森未来如何借助云缩短60%模型训练时间

简介: 阿里云飞天AI加速器+Serverless容器,帮助图森未来提升资源利用率。

题图.jpg

图森未来(TuSimple)成立于2015年,是一家专注于L4级无人驾驶卡车技术研发与应用的人工智能企业,已经实现卡车在干线物流场景和半封闭枢纽场景下的无人干预驾驶。图森未来品牌旗下产品——图森未来 L4 级别无人驾驶卡车能够实现环境感知、定位导航、决策控制等自动驾驶核心功能,可应用于高速公路货运和港内集装箱码头运输及其相似场景。
公司于2019年9月完成总额2.15亿美元D轮融资,资方:UPS、鼎晖资本、万都中国、累计融资超过3亿美元,最新估值超过12亿美元,是卡车无人驾驶头部企业,也是全球第一家无人驾驶卡车独角兽企业。
图森未来的业务主要在美国和国内两地展开,在美国主要是高速公路干路货运场景,国内业务开始以连接枢纽场景的干线物流货运为主。

在美国,图森未来已经向包括UPS、USPS、McLane、U.S. Xpress在内的18家客户提供无人驾驶物流服务。
今年年初,图森未来的无人驾驶卡车还上了“钢铁侠”的扮演者小罗伯特·唐尼主持的科技聚集剧集《The Age of A.I.》(《AI时代》),在剧中不仅顺利完成无人驾驶的行驶任务,还与围追堵截的摄像车“斗智斗勇”,在摄像车各种找拍摄角度的情况下,自动自我调整,化险为夷,避让既礼貌又安全。
国内方面,2018年 10月,图森未来拿到国内第一张针对无人驾驶卡车在公开道路测试的测试牌照。依托上海市政府的政策支持,以及临港片区真实场景的需求,图森未来的无人驾驶卡车已经在东海大桥上进行了长时间的测试,截至2020年7月,累计测试里程已超过5万公里,具备了在东海大桥上不需要接管的无人驾驶能力。

1.jpg
(在港口卸货的图森未来自动驾驶卡车)

在北京,图森未来携手北汽福田、首发集团等合作伙伴,实现了在京礼高速(延崇北京段)总长14公里(包括9.8公里连续特长隧道群路段)的三车无人驾驶队列跟弛测试,顺利完成中国首次高速公路全封闭环境下、基于C-V2X车路协同技术的队列跟驰测试工作。

飞天AI加速器提升训练性能,加速模型迭代
一台车自动驾驶卡车,两个星期会产生大约50TB的数据。图森未来目前有超过70台卡车在上路,意味着每天有大量的数据产生。为了让自动驾驶卡车更聪明,就需要不断地积累更多的真实数据集训练它目标检测与物体识别框架的能力。
随着业务高速发展,迭代越来越快,图森未来的模型也越来越复杂。每次模型迭代,都需要短时间调度大规模的GPU资源来分布式地进行模型训练。
然而,GPU服务器采购成本高,运维复杂,图森未来不得不投入越来越多的精力到运维工作中;更重要的是,图森未来发现,随着所用GPU数量增长,GPU的利用率却并不高。
为什么会这样?理论上来说,GPU卡越多,整体算力越大,但是随着机器数的增加,不同机器的GPU之间的配合难度会越来越大,单张GPU卡的利用率反而会下降。所以增加了几十倍的卡的成本,但是性能却很难随之线性增长。
阿里云的飞天AI加速器AIACC团队,针对图森未来的场景,在底层针对通讯、计算、时延和带宽等做了深度优化,将训练性能提升了将近60%,大大缩短了图森未来的模型优化时间,加速模型迭代,提高技术门槛。
image.png

飞天AI加速器是AIACC业界首个统一加速Tensorflow、MXNet、Caffe、PyTorch等主流深度学习框架的加速引擎,拿下斯坦福深度学习榜单Dawnbench图像识别四个世界第一。

Serverless容器,提升仿真测试效率,缩短60%模型测试时间
每次迭代的模型训练完成之后,图森未来需要对优化后的模型进行测试。如果每次都要上路测试,成本大、风险高、而且不能验证各种极端情况。
幸亏,图森未来有个汽车仿真平台,模拟在各种环境下(例如:晴天、阴天、雨天、雾霾天、夜晚),模型的处理能力。
这种测试任务依赖开发人员的开发节奏,具有突发、临时、短期的特征,并且需要的算力规模非常大,如果包年包月地购买海量算力,则很多时候都处于闲置状态,需求来了可能算力又不够用,仿真模拟任务需要排队完成,影响开发人员的开发效率和模型的迭代速度。
由于图森未来的整体业务架构早已实现容器化,为这类临时高峰场景做好了敏捷的业务储备。通过阿里云ASK(Alibaba Cloud Serverless Kubernetes)容器服务,图森未来可以在需要测试的时候,在阿里云上秒级启动大规模的容器集群,即刻获取海量算力,缩短了60%的模型测试时间;完成测试之后迅速释放算力,避免资源浪费。
阿里云ASK是Serverless免运维的K8s容器服务,底层使用阿里云ECI(Elastic Container Instance弹性容器实例)作为容器计算基础设施,提供高弹性、低成本、免运维的Serverless容器运行环境,免去用户对容器集群的运维和容量规划工作,大大节省了图森未来运维的工作量。
image.png
另外,ASK的计费粒度精确到秒,非常适用于仿真计算这类突发的高并发短时任务;针对长期的训练任务,图森未来则使用包年包月的ACK(Alibaba Cloud Kubernetes)。通过适用于长短任务的ACK+ASK产品搭配,即提升了图森未来的资源利用率,又节省了成本。

本项目属于机器学习的简单部分,基于为了快速理解机器学习而搭建的人工智能速成项目,大家可以根据其中的项目时间进行相关的学习.zip项目工程资源经过严格测试可直接运行成功且功能正常的情况才上传,可轻松复刻,拿到资料包后可轻松复现出一样的项目,本人系统开发经验充足(全领域),有任何使用问题欢迎随时与我联系,我会及时为您解惑,提供帮助。 【资源内容】:包含完整源码+工程文件+说明(如有)等。答辩评审平均分达到96分,放心下载使用!可轻松复现,设计报告也可借鉴此项目,该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的。 【提供帮助】:有任何使用问题欢迎随时与我联系,我会及时解答解惑,提供帮助 【附带帮助】:若还需要相关开发工具、学习资料等,我会提供帮助,提供资料,鼓励学习进步 【项目价值】:可用在相关项目设计中,皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面,可借鉴此优质项目实现复刻,设计报告也可借鉴此项目,也可基于此项目来扩展开发出更多功能 下载后请首先打开README文件(如有),项目工程可直接复现复刻,如果基础还行,也可在此程序基础上进行修改,以实现其它功能。供开源学习/技术交流/学习参考,勿用于商业用途。质量优质,放心下载使用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值