深度学习平台之技术栈

技术点:
数据分布式存储,ib网络,分布式存储,存储数据管理
任务分布式调度
ib网络,多机多卡,万兆网络
mongodb数据库
docker隔离,训练框架caffe
数据分析,自动化测试报告多维度分析
海量数据量:几个T,几百万的小文件数,数据挖掘
深度学习训练框架增强,多机,多卡,单机多卡,网络聚合
不同训练框架的兼容和转换
新技术:docker容器,k8s容器,nginx反向代理,mongodb数据库,mysql数据库,caffe/pytorch,redis,django+uwsgi,(haddop,spark,gpfs)

产品:每一个场景都需要定制,数据量,时效性
市场:用户场景复杂,用户数据无法获取,需要对应场景定制,新兴市场
人才:工程人才+算法人才,工程+大数据分布式计算人才,容器云人才

性能指标和挑战:
技术:
1)分布式存储:高性能1PB,低性能 文件数/秒, 大文件带宽数/秒
2)数据管理平台QPS,标注平台,训练平台,自动化测试平台,(cpu,网络,磁盘io)
3)服务器数目500台
4)服务器运维监控,500台服务器,QPS:500/10 = 50条/秒 网络带宽:200m/秒 磁盘:200m/秒
5)用户数:标注用户:1000 训练用户:1000
6)任务数:qps:2000条/秒, 真实用户:1000条/秒
7)训练:500台服务器,每台服务器8张卡,最大并发任务数:4000个并发任务,文件数:4000*32/秒 = 128000文件数/秒
8)训练框架和性能优化,单机单卡,单机多卡,多机多卡
9)无法获取的用户场景和用户数据
10)多维度,多场景,不同框架的评审指标
11)automl的自动搭建问题
12)增强学习
13)公有智能云开发平台,安全,高并发,自动运维和报警

涉及部门:
1)数据标注组
2)算法组
3)优化组
4)集成组
5)市场

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

百鸣

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值