NLP任务一些经验总结

最新推荐文章于 2022-07-04 15:38:11 发布

Mr_不想起床

最新推荐文章于 2022-07-04 15:38:11 发布

阅读量984

点赞数 1

分类专栏： NLP 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42189083/article/details/102937503

版权

NLP中常见任务的开源解决方案、数据集、工具、学习资料

记录下NLP任务一些经验总结。

输入
1、字向量编码
2、词向量编码(如果可以根据语料自己训练)
3、位置编码，相对位置编码或者w2v思路的位置编码
4、对于字向量与词向量如果要采用相加的形式组合在一起，可以把词向量重复n词，n表示的是当前词有多少个字，可以直接保证维度一致

序列标注问题
1、采用BIO做数据标注
2、半指针-半标注，分别预测开始位置与结束位置
3、多实体的可将开始位置与结束位置的softmax替换为sigmoid，选择某个阈值x，大于x则选为开始位置或结束位置
4、采用star/end/none的标注方式，对每个token预测属于哪一类
5、对于1与4思路可采用特征提取器+crf的模式，对于2与3采用特征提取器+softmax/sigmoid的模式
6、对于有约束条件的序列问题，把约束与约束的位置信息编码，或者和约束有关系的trigger与trigger的位置信息编码，如果位置信息很重要，可以把trigger的位置信息和字的位置信息做cosine

文本分类
1、较为明显的fasttext
2、短文本textcnn
3、长文本HAN
4、通吃，精调的BiLSTM+Attention
5、终极方法Bert

关系抽取
1、先识别主实体，一次性识别客实体与关系
2、知识库中进行远程监督式的搜索，构成先验信息

常用特征提取器
1、预训练模型ALbert(快速实验)、Bert、XLNet等
2、RNN(Bilstm)+A

最低0.47元/天解锁文章

Mr_不想起床

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。