Intend Classification Engine

最新推荐文章于 2024-08-25 20:09:30 发布

sunlanchang

最新推荐文章于 2024-08-25 20:09:30 发布

阅读量334

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/sunlanchang/article/details/113758829

版权

笔记专栏收录该内容

52 篇文章 2 订阅

订阅专栏

本文探讨了使用BERT和LSTM在改进的多标签数据集上进行的实验，对比了不同策略对DNN模型性能的影响，展示了BERT加入TF-IDF和LSTM组合的实验结果。作者发现BERT+LSTM的变体在部分训练数据上效果优于单纯BERT，但整体上加入LSTM后性能下降。关键实验9通过TF-IDF调整后输入LSTM，精度降低0.1%。

摘要由CSDN通过智能技术生成

Data & Code

数据下载：
链接: https://pan.baidu.com/s/19WEMuPRQVP4yRMO6xJeLPg 提取码: uehm 复制这段内容后打开百度网盘手机App，操作更方便哦

写在前面，文中可能提及evaluation、test、validation，这里的evaluation和test是同一个意思都是测试集，validation是验证集，在ICEv4的baseline中是没有validation的只有test。也就是直接训练完模型后看模型在test上的表现(test是有标签的)。

文件结构：

.
├── train_test_data
├── newest_train_with_norm
├── newest_validation_with_norm
├── DNN_multi_gpu_v4.py
├── label_dict.json
├──LoadData_TfidfFeature.py

其中DNN_multi_gpu_v4.py是主函数，使用的train和test数据分别在newest_train_with_norm和newest_validation_with_norm中。在主函数中使用了LoadData_TfidfFeature.py将一个query各个词的tfidf填充到355001大小的vector中输入给DNN模型。

newest_train_with_norm中数据有trainSmall0.txt ~ trainSmall447.txt共448个文件，每个文件有15000个样本(除了最后一个文件trainSmall447.txt有4595样本)，每个样本是一行。文件太多共30多G，我这里就放了一个文件。

newest_validation_with_norm数据是有标签的，预测完数据后自动调用函数输出top1 accuracy。label_dict.json为标签的词典。

ICEv4数据介绍

ICEv4是0.47的baseline，使用的数据如下所示。

以trainSmall0.txt第一行举例：
2043802 12124:1,10857:2,10163:2,10018:2 15:0.05182752845352 26:0.0544780513904204 72:0.0583115046118085 ...

文件使用\t作为分割，第一列2043802为行的id，第二列12124:1,10857:2,10163:2,10018:2中12124为标签，后面带:2的都是标签的父节点或者爷爷节点等。第三列15:0.05182752845352 26:0.0544780513904204 72:0.0583115046118085中第一对数字15为token的id，第二个数字0.05182752845352为该token在当前query的tfidf值。后面的数字对也是这样的意思。