
混合精度训练、分布式训练等训练加速方法
其中,float16的组成分为了三个部分:最高位表示符号位,sign 位表示正负,有5位表示exponent位, exponent 位表示指数,有10位表示fraction位, fraction 位表示的是分数。为了解决梯度过小的问题,论文中对计算出来的loss值进行scale,由于链式法则的存在,loss上的scale会作用,同时也会作用在梯度上。-master_addr:master节点的ip地址,也就是0号主机的IP地址,该参数是为了让 其他节点 知道0号节点的位,来将自己训练的参数传送过去处理。












