本文是对Datawhale的讲座企业对于数据人才的能力需求的笔记整理
讲座地址
1. 基于tf的算法落地
- 提取/验证数据
- train/分析 model
- 部署到生产环境
2. 算法落地流程
设备安装(重要性占50%)–数据采集–数据清洗,挑选,标注(重要性占20%)–训练(重要性占10%)—部署(云端/移动端)
3. 算法部门分工
数据+算法+算力
数据管理
- 比例占比10
- 数据采集,标注,质检(工程能力,提升质检效率,价值高于 算法本身的研究,研发流程会大规模缩短)
- 数据合规:脱敏,权限,使用流程,数据操作记录
- 数据版本管理,随时增删改查。
- 不同数据格式,存储问题,算法工程师和存储分开, 统一数据组织格式,提供接口和适配。
- 数据描述方式,统一标准格式,提供接口和适配。
- 数据规模很大,大规模并行处理。(PB级别)云存储,可靠性&#