NLP中几点Trick

有时候魔改模型或者各种改损失函数等,都收效甚微,不如从数据出发、从bad case出发。
阅读了https://blog.csdn.net/herosunly/category_9393702.html总结一些以后可以用的trick。
1、NER任务时BIOE标注可能或比BIO标注更好一点,因为增加了更多的特征。
2、在我们使用Bert的时候看数据集是否有些生僻字在bert的词表中没有。
3、假设文本提取需要提取的种类很多or数据不平衡,可以用几个不同的模型进行分别提取。
4、错别字纠正或者用拼音替换。
5、Roberta large或许好一些。
6、在拼接不同特征给bert的时候可以[CLS]+特征1+[SEP1]+特征2+[SEP2]+特征3+[SEP]方式;有些可以先做嵌入再拼接:特征4—>embedding和bert output 进行拼接。
7、对抗训练等其他。
8、选择SOTA模型时尽量选择与自己数据相似的。
9、是否可以借助外部数据集,如一些开源数据等,毕竟数据才是最重要的,魔改模型收益太小。

先到这里。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值