1. face recognition部分使用指南
x和W上的并行加速
内存消耗和训练速度
设置:ResNet 50,批大小 8*64,特征尺寸512,浮点数32,GPU 8P40 (24GB)。
主要步骤说明
并行计算通过简单的矩阵划分。设置:ResNet 50,批大小8*64,特征尺寸512,浮点数32,身份数量100万,GPU 8* 1080ti (11GB)。通讯成本:1MB(功能x),训练速度:每秒800个样本。
注意:如果您想使用并行加速,请在以下示例中将train.py替换为train_parallel .py。
模型训练
1. 使用GPU支持安装MXNet (Python 2.7)
注意:根据自己的cuda版本,下载对应的mxnet版本,如果版本不对应会报错。
pip install mxnet-cu80
pip install mxnet-cu90
pip install mxnet-cu100