最近用到bert模型做中文文本分类,记录一下踩的坑: 1、数据不平衡 由于数据量太少,而且极度不平衡,导致模型把所有数据都判为正例或负例,导致多次试验结果的正确率不变,精确率要不和正确率一样,要不就是0,召回率是1或者是0。 2、shuffle数据,shuffle数据,shuffle数据 刚开始直接用THUCnews数据跑模型,结果在验证集上的正确率为0,后来把数据打乱之后,正确率可以达到19%,82%,93%,94%,98%了。 目前遇到这些,后期再更新。