Logistic Regression的本质不是MLE嘛
LR的一个很大的缺点就是单个training example的likelihood很小时它的cost可能会很大,这样的话,单个training example可能会对整体造成很大的影响
对于与sigmoid函数就是说,这个函数的下限约等于0,取-log后会是一个很大的正数,所以一个改进的思路就是认为地把x = sigmoid(z)变成
x = sigmoid(z) * 0.9 + 0.05
这样做是为了防止单个training example造成过大的影响,同理可略微修改softmax的“likelihood”定义方式
由于时间的缘故,这里暂时并不打算贴上课后作业的数据集,过几天等我答辩完再讲吧。其实以前我就研究过这个问题,但当时想的方法很糟糕,而且我也忘了当时想的是什么方法了。
后记:现在有点考虑这样做的意义。因为我人为地修改cost function的表达式,是因为我担心部分异常点会一只老鼠坏一锅汤,但实际操作中,如何数据清洗得当的话,改不改cost function是差不多的吧。。