网络架构
我们有4个特征和3个可能的输出类别, 我们将需要12个标量来表示权重(带下标的w), 3个标量来表示偏置(带下标的b)。 下面我们为每个输入计算三个未规范化的预测(logit):o1、o2和o3。
与线性回归一样,softmax回归也是一个单层神经网络。
但是我又不能将未规范化的预测o直接视为输出。一方面,我们没有限制这些输出数字的总和为1。 另一方面,根据输入的不同,它们可以为负值。
要将输出视为概率,我们必须保证在任何数据上的输出都是非负的且总和为1。 此外,我们需要一个训练的目标函数,来激励模型精准地估计概率。
softmax函数能够将未规范化的预测变换为非负数并且总和为1,同时让模型保持 可导的性质。
softmax回归的矢量计算表达式为:
损失函数
我们需要一个损失函数来度量预测的效果。 我们将使用最大似然估计,这与在线性回归中的方法相同。