目录 损失函数 指标选择 交叉熵 交叉熵代码 使用最大似然的优势 损失函数的具体形式 用于高斯输出分布的线性单元 用于Bernoulli输出分布的sigmoid单元 用于Multinoulli输出分布的softmax单元 Mixture Gaussian Distribution 总结 隐藏单元 架构设计 更深层的好处 反向传播 梯度 链式法则 仿射层 sigmoid softmax 正则化 参数范数惩罚 L2 参数正则化 L1 正则化 数据集增强 噪声鲁棒性 多任务学习 提前终止Early stopping 概念 算法 优点 代价 应用 第二轮训练 稀疏表示 Bagging和其他集成方法 Dropout 概念 具体方法 和bagging方法比较