- 博客(1)
- 收藏
- 关注
原创 Check-N-Run: a Checkpointing System for Training Deep Learning Recommendation Models | NSDI‘ 22
这次和大家分享一篇刚刚放出的论文,来自于2022年NSDI (USENIX Symposium on Networked Systems Design and Implementation, CCF A类) 。该论文由Facebook主导,首次(据作者所述)针对大规模工业训练深度学习推荐系统的场景提出了一个检查点系统,在不损害测试准确率的情况下节省存储空间、存储带宽和网络带宽。该系统具有增量化和动态量化的设计,在大规模真实工业负载的实验中,该系统可以减少6-17x 带宽和2.5-8x 存储空间。
2022-02-20 16:17:35
1826
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人