11.6
B榜第50名进复赛??!掉的不行。。
10.7
上分,靠融合,xlnet、roberta、bert模型融合起来,强强联手,加gru,split_num设4,多折,文本清洗不如不洗,目前线上0.81770003,当前排名top9
9.14
上分上分,血的教训,之前跑了十来版没怎么上分,事实证明!k-fold很重要!!!却也充满了随机性。。目前roberta+5fold线上0.8091,当前排名top34
9.4
xlnet设置maxseqlength512,线上单模0.7999,再voting一下,线上0.8067,当前排名top9
9.2
上分啦,跑了三个模型(两个bert,一个xlnet),voting了一下,线上0.8036,当前排名top11
关于洗数据,暂时的方案是把特殊字符清理掉,还有网址和fontsize那些垃圾文本,但是,洗了不如不洗,同参数同模型,用洗完的数据跑效果更差了,还得继续尝试别的清洗方案。
btw,吐槽一下跑了一个xlnet已经48h过去了,还没跑完。
8.30
改了一波xlnet参数,依旧未清洗数据,现在eval_accuracy为0.8525,线上f1-score为0.7981,当前排名 top 9
效果还不错,有空清洗一波数据,用rawdata目前这效果很满足了
bert跑了一波,线下0.725,线上f1-score 0.7673
8.29
数据量比较小,训练集及测试集仅7000+的三分类任务
将文本几乎未做清洗,直接放入xlnet模型进行三分类任务的finetuning
先跑了一版max_seq_length=128试试
效果不错,线下eval_accuracy为0.8182,线上f1-score 0.74
todo.. 看看大家如何清洗数据,bert调参