- 在本节中,我们直接实现了基于数学定义softmax运算的softmax函数。这可能会导致什么问题?提⽰:
尝试计算exp(50)的⼤小。
python的数字类型转换虽然是可以做到int自动转long,但long的范围受限于内存大小。这可能会导致计算溢出(有噪声,网络参数初始化没弄好等)
- 本节中的函数cross_entropy是根据交叉熵损失函数的定义实现的。它可能有什么问题?提⽰:考虑对数的定义域。
对数的定义域是(0,+∞), y_hat预测分数有很接近0的也可能会超出long的范围
- 你可以想到什么解决⽅案来解决上述两个问题?
计算之前先确定输入的阈值,避免输出超出long的范围
- 返回概率最⼤的分类标签总是最优解吗?例如,医疗诊断场景下你会这样做吗?
不一定,因为存在[0.45,0.44,0.11]这样的情况,0.45对应的优势并不是那么明显。医疗场景下我不会总是这么做,如果机器给出的最优解并没有太大的优势,后期的随访和检查还是有必要的
- 假设我们使⽤softmax回归来预测下⼀个单词,可选取的单词数⽬过多可能会带来哪些问题?
一个是高额的矩阵运算成本,再一个是每个单词的概率就比较低,容易出现题目4的解答中出现的问题。