CCF BDCI 互联网新闻情感分析 baseline思路(持续更新..)

11.6

B榜第50名进复赛??!掉的不行。。

10.7

上分,靠融合,xlnet、roberta、bert模型融合起来,强强联手,加gru,split_num设4,多折,文本清洗不如不洗,目前线上0.81770003,当前排名top9

9.14

上分上分,血的教训,之前跑了十来版没怎么上分,事实证明!k-fold很重要!!!却也充满了随机性。。目前roberta+5fold线上0.8091,当前排名top34

9.4 

xlnet设置maxseqlength512,线上单模0.7999,再voting一下,线上0.8067,当前排名top9

9.2

上分啦,跑了三个模型(两个bert,一个xlnet),voting了一下,线上0.8036,当前排名top11

关于洗数据,暂时的方案是把特殊字符清理掉,还有网址和fontsize那些垃圾文本,但是,洗了不如不洗,同参数同模型,用洗完的数据跑效果更差了,还得继续尝试别的清洗方案。

btw,吐槽一下跑了一个xlnet已经48h过去了,还没跑完。

 

8.30

改了一波xlnet参数,依旧未清洗数据,现在eval_accuracy为0.8525,线上f1-score为0.7981,当前排名 top 9

效果还不错,有空清洗一波数据,用rawdata目前这效果很满足了

bert跑了一波,线下0.725,线上f1-score 0.7673

 

8.29

数据量比较小,训练集及测试集仅7000+的三分类任务

将文本几乎未做清洗,直接放入xlnet模型进行三分类任务的finetuning

先跑了一版max_seq_length=128试试 

效果不错,线下eval_accuracy为0.8182,线上f1-score 0.74

todo.. 看看大家如何清洗数据,bert调参

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值