Intend Classification Engine

本文探讨了使用BERT和LSTM在改进的多标签数据集上进行的实验,对比了不同策略对DNN模型性能的影响,展示了BERT加入TF-IDF和LSTM组合的实验结果。作者发现BERT+LSTM的变体在部分训练数据上效果优于单纯BERT,但整体上加入LSTM后性能下降。关键实验9通过TF-IDF调整后输入LSTM,精度降低0.1%。
摘要由CSDN通过智能技术生成

Data & Code

数据下载:
链接: https://pan.baidu.com/s/19WEMuPRQVP4yRMO6xJeLPg 提取码: uehm 复制这段内容后打开百度网盘手机App,操作更方便哦

写在前面,文中可能提及evaluationtestvalidation,这里的evaluationtest是同一个意思都是测试集,validation是验证集,在ICEv4的baseline中是没有validation的只有test。也就是直接训练完模型后看模型在test上的表现(test是有标签的)。

文件结构:

.
├── train_test_data
├── newest_train_with_norm
├── newest_validation_with_norm
├── DNN_multi_gpu_v4.py
├── label_dict.json
├──LoadData_TfidfFeature.py

其中DNN_multi_gpu_v4.py是主函数,使用的train和test数据分别在newest_train_with_normnewest_validation_with_norm中。在主函数中使用了LoadData_TfidfFeature.py将一个query各个词的tfidf填充到355001大小的vector中输入给DNN模型。

newest_train_with_norm中数据有trainSmall0.txt ~ trainSmall447.txt共448个文件,每个文件有15000个样本(除了最后一个文件trainSmall447.txt有4595样本),每个样本是一行。文件太多共30多G,我这里就放了一个文件。

newest_validation_with_norm数据是有标签的,预测完数据后自动调用函数输出top1 accuracy。label_dict.json为标签的词典。

ICEv4数据介绍

ICEv4是0.47的baseline,使用的数据如下所示。

trainSmall0.txt第一行举例:
2043802 12124:1,10857:2,10163:2,10018:2 15:0.05182752845352 26:0.0544780513904204 72:0.0583115046118085 ...

文件使用\t作为分割,第一列2043802为行的id,第二列12124:1,10857:2,10163:2,10018:212124为标签,后面带:2的都是标签的父节点或者爷爷节点等。第三列15:0.05182752845352 26:0.0544780513904204 72:0.0583115046118085中第一对数字15为token的id,第二个数字0.05182752845352为该token在当前query的tfidf值。后面的数字对也是这样的意思。

我使用的数据

train_test_data中是我目前使用的所有的数据包括训练数据和测试数据。

step2.trainMerge_multi_label_high_quality_repeat_resort_docid.txt第一行举例:
5784078 12699 rfid:0.24798 implant:0.16931 obamacare:0.25705 ...

和ICEv4不同之处就是我把query的数字对的第一个数字换成了真实的token。同样都是以\t分隔,第一列是样本的唯一id。第二列是样本的label,有的数据有多个label。第三列就是各个token和token对应的tfidf。

我的实验

DNN的baseline是0.47~0.48左右,我用bert做了几个实验,其中set1就是部分训练数据,set1+set2是所有训练数据,WordPiece是官方的bert分词,Term feature是用空格分词(30w词表)。bert做的几个实验如下所示:
在这里插入图片描述

  • 实验8在Bert之后加入LSTM效果变差了。实验9是先在bert后每个位置乘上了相应的tfidf值,再用LSTM效果相对与exp8低了0.1%
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值