1. 打破BERT天花板:11种花式炼丹术刷爆NLP分类SOTA!
原文:https://mp.weixin.qq.com/s/xkEmfuFw_Q7GWGUviZDp4w
- 标签体系
- 一些特征提取方式
- 预训练特征
- 数据蒸馏
2. 实战必备!文本分类中的一些经验和 tricks
在文本分类任务中,有哪些论文中很少提及却对性能有重要影响的tricks?
各路神仙打架
- 包大人
- 夕小瑶
- 等
3. SMP2020微博情绪分类比赛总结
SMP2020微博情绪分类比赛总结
总结一下:
- 预训练
- 模型融合
- embedding+各式各样的模型变种
- 各种ppt可以直接下载= =
4. 【代码+经验】阿里云tianchi新闻文本分类大赛rank4分享
-
原文讲解:原文
-
代码资源:https://github.com/KOF-hello/rank4_NLP_textclassification
-
总体思想
- 自己预训练了多个词向量,包括word2vec,glove等,自己平时也可以参考。
- 自己预训练了bert,但是数据量不大,bert和其他预训练拉不开太大区别。
- 融合,融合感觉在文本分类中,提升还是比较明显的,模型尽可能不同,然后精度尽量高,融合起来效果才会越好。
-
提到的一些trick