首先来学习经典的手写体识别问题,以下是具体的分析:
输入是一副28*28=784的图片,这个图片以一个01矩阵形式被描述。
输出是具体预测的数字,由于该问题是一个分类问题,所以通常输出的是一系列概率,我们要用到softmax。
损失函数方面,我们先选用在分类中最常用的交叉熵。
网络结构方面,我们不妨先选用最为简单的全连接网络。
网络层数方面,这个变量我们可以控制,以观察不同层数的网络的表达能力是如何变化的。
激活函数方面,暂不明白选不同的激活函数有何区别。
首先来学习经典的手写体识别问题,以下是具体的分析:
输入是一副28*28=784的图片,这个图片以一个01矩阵形式被描述。
输出是具体预测的数字,由于该问题是一个分类问题,所以通常输出的是一系列概率,我们要用到softmax。
损失函数方面,我们先选用在分类中最常用的交叉熵。
网络结构方面,我们不妨先选用最为简单的全连接网络。
网络层数方面,这个变量我们可以控制,以观察不同层数的网络的表达能力是如何变化的。
激活函数方面,暂不明白选不同的激活函数有何区别。