意图识别

最新推荐文章于 2024-08-14 18:55:17 发布

沐自礼

最新推荐文章于 2024-08-14 18:55:17 发布

阅读量3.5k

点赞数

分类专栏：意图识别文章标签：意图识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/nanjifengzi/article/details/80648085

版权

意图识别专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本次尝试，采用了深度学习和机器学习两种方式去考虑相关的。前者采用embedding的词嵌入的方式基于lstm-dssm模型做司机问题和库文件中标准问题做相似度匹配。后者对数据少的信息采用smote方式扩容，采用tfidf和bow方法基于随机森林的方式训练。

数据集总共 1万8千条数据，130个类。标记为null的数据达到1万3千条，数据分布也极为不均衡，所以模型很容易出现忽略小样本的问题。

（1） lstm-dssm 记录输入句子的上下文， Lstm 这个模型更为擅长，因此又有了一种 Lstm 来构造的 DSSM 模型

由于没有对文本特殊处理，采用 1对多个负样本，训练模型。最后输出准确率达到88%左右，大部分偏向了 1万3千个样本的数据。

（2）随机森林

对次数出现大于6次和不会NULL的50个分类的数据分析，采用bow和tfidf 对文本信息表达，

采用五折交叉验证，得到的准确率为 98.3%

采用第二种方式的预测例子：

预测的结果，基本符合前期要求，设计公司的信息，就不展示了。

可以看出尝试了多次测试，相关的问题不大部分都能分到对应的标准问题里，对于分类错的数据，暂时归于语料太少。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。