NLP任务一些经验总结

NLP中常见任务的开源解决方案、数据集、工具、学习资料

记录下NLP任务一些经验总结。

输入
1、字向量编码
2、词向量编码(如果可以根据语料自己训练)
3、位置编码,相对位置编码或者w2v思路的位置编码
4、对于字向量与词向量如果要采用相加的形式组合在一起,可以把词向量重复n词,n表示的是当前词有多少个字,可以直接保证维度一致

序列标注问题
1、采用BIO做数据标注
2、半指针-半标注,分别预测开始位置与结束位置
3、多实体的可将开始位置与结束位置的softmax替换为sigmoid,选择某个阈值x,大于x则选为开始位置或结束位置
4、采用star/end/none的标注方式,对每个token预测属于哪一类
5、对于1与4思路可采用特征提取器+crf的模式,对于2与3采用特征提取器+softmax/sigmoid的模式
6、对于有约束条件的序列问题,把约束与约束的位置信息编码,或者和约束有关系的trigger与trigger的位置信息编码,如果位置信息很重要,可以把trigger的位置信息和字的位置信息做cosine

文本分类
1、较为明显的fasttext
2、短文本textcnn
3、长文本HAN
4、通吃,精调的BiLSTM+Attention
5、终极方法Bert

关系抽取
1、先识别主实体,一次性识别客实体与关系
2、知识库中进行远程监督式的搜索,构成先验信息

常用特征提取器
1、预训练模型ALbert(快速实验)、Bert、XLNet等
2、RNN(Bilstm)+A

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值