江西开放数据创新应用大赛VTE赛道单特征0.5+分享

最新推荐文章于 2024-10-04 21:21:54 发布

m0_63816528

最新推荐文章于 2024-10-04 21:21:54 发布

阅读量1.4k

点赞数 3

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_63816528/article/details/121115276

版权

作者在江西开放数据创新应用大赛VTE赛道中，通过word2vec对诊断特征进行词向量转换，解决了单特征OneHot编码效果不佳的问题，线下精度提升至0.2+。进一步采用SMOTE算法处理类别不平衡，模型预测精度在线上达到0.50以上。

摘要由CSDN通过智能技术生成

对VTE赛道的数据进行分析之后，发现诊断一栏的特征对整个结果的影响最大，所以想着能不能对诊断一栏的数据进行一个很好的处理。

一开始使用了OneHot编码对诊断特征数据进行编码，因为是字符数据，使用的模型不能直接使用，所以对诊断进行编码后，再送进去。但是最后的结果出人意料地低，线上只有0.1几，虽说是单特征，但是这样的效果实在太低了，所以就在想是不是特征本身没有问题的，是处理数据的方式还不太好。然后偶然看到网上有对字符数据特征进行处理的文章，主要是通过word2vec对文字生成词向量，再将词向量送入到模型中进行处理。

按照文章中的做法，单是针对诊断这一特征，做了简单的转换后，生成了11076*100维的数据，11076是原本数据中的行数，100是将诊断特征生成词向量之后的大小，送进模型进行运行后，发现最后的精度提升了不少，线下达到了0.2+

这个结果对于单特征来说已经算是还可以了，至少比之前OneHot编码要很好多了。但是到这里还只是一部分，通过对整个训练集数据的分析，不难发现其中flag0和1的个数相差太多，也就是数据的类别分类不均衡，对于这样的数据，进行训练后预测，得到的模型精度肯定也不会太高，因此应该想办法提高数据类别的分类占比，在西瓜书上，针对这一问题，书中给出了过拟合的方法--使用SMOTE算法，对数据进行采用的过程中通过相似性同时生成并插样“少数类别数据”。

最低0.47元/天解锁文章

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。