NLP中几点Trick

舒语---依依

已于 2022-02-22 10:22:08 修改

阅读量867

点赞数

文章标签：自然语言处理人工智能 nlp

于 2022-02-21 18:05:33 首次发布

本文链接：https://blog.csdn.net/matlabjenny/article/details/123052460

版权

有时候魔改模型或者各种改损失函数等，都收效甚微，不如从数据出发、从bad case出发。
阅读了https://blog.csdn.net/herosunly/category_9393702.html总结一些以后可以用的trick。
1、NER任务时BIOE标注可能或比BIO标注更好一点，因为增加了更多的特征。
2、在我们使用Bert的时候看数据集是否有些生僻字在bert的词表中没有。
3、假设文本提取需要提取的种类很多or数据不平衡，可以用几个不同的模型进行分别提取。
4、错别字纠正或者用拼音替换。
5、Roberta large或许好一些。
6、在拼接不同特征给bert的时候可以[CLS]+特征1+[SEP1]+特征2+[SEP2]+特征3+[SEP]方式；有些可以先做嵌入再拼接：特征4—>embedding和bert output 进行拼接。
7、对抗训练等其他。
8、选择SOTA模型时尽量选择与自己数据相似的。
9、是否可以借助外部数据集，如一些开源数据等，毕竟数据才是最重要的，魔改模型收益太小。

先到这里。