背景:
我们在建立模型的时候,经常会思考我们的模型是不是够稳定,会不会出现样本偏差效应, p>>N时候会不会过拟合? 我们检查模型稳定,我们进行一些cross-validation来看看各项评估指标方差大不大。 可是如果样本一开始因为采样偏差导致样本有偏,导致模型和实际情况有差异,这个就不太好评估了。同样,p>>N也会有类似的问题,尤其在文本挖掘领域。一般情况,如果特征不是很多的话,尤其像logistic regression这样的model,我们会把模型权重给打印出来看看,看看训练出的模型结果,是否和人的经验吻合。下面是lime 文章中提到一个文本分类的case,预测一段文本是无神论相关的,还是基督徒相关的。文中分类器预测结果这篇文本是无神论相关的,可是主要区分特征却与人的经验十分不吻合的,这样的模型是不能让人信服的,当我们把这几个特征删除后,预测结果又反向了。我们可以通过人工构建一些由这些特征组成的文本来加入到预测实验中,会大大降低模型性能。