一.数据的格式 二.激活函数 二分类要用sigmoid,不能用softmax,公式如下: 三.优化器 sgd比adam在收敛阶段效果还好 四.BatchNormalization 数据量少,把BN去掉,换成归一化?