task04 分类问题
-
分类问题和回归问题的联系与区别,如何用回归问题解决分类问题
分类和回归的区别在于输出变量的类型。定量输出称为回归,或者说是连续变量预测;
定性输出称为分类,或者说是离散变量预测。他们的损失函数也不相同
可以给回归问题的输出值设定一个阈值,超出阈值的为一类,在阈值里的为另一类
2.为什么分类问题的损失函数是交叉熵而不是均方
-
如果用均方做损失函数,当真实值与预测值的差值很大时,参数的梯度反而很小,不能快速收敛
-
分类问题中,对于类别之间的相关性,我们缺乏先验。
虽然我们知道,与“狗”相比,“猫”和“老虎”之间的相似度更高,但是这种关系在样本标记之初是难以量化的,所以label都是one hot。
在这个前提下,均方误差损失可能会给出错误的指示,比如猫、老虎、狗的3分类问题,label为[ 1 , 0 , 0 ] [1, 0, 0][1,0,0],在均方误差看来,预测为[ 0.8 , 0.1 , 0.1 ] [0.8, 0.1, 0.1][0.8,0.1,0.1]要比[ 0.8 , 0.15 , 0.05 ] [0.8, 0.15, 0.05][0.8,0.15,0.05]要好,即认为平均总比有倾向性要好,但这有悖我们的常识。而对交叉熵损失,既然类别间复杂的相似度矩阵是难以量化的,索性只能关注样本所属的类别,只要预测值越接近1越好
3.线性判别分析与逻辑回归在参数估计上有什么异同?
4