江西开放数据创新应用大赛VTE赛道单特征0.5+分享

对VTE赛道的数据进行分析之后,发现诊断一栏的特征对整个结果的影响最大,所以想着能不能对诊断一栏的数据进行一个很好的处理。

一开始使用了OneHot编码对诊断特征数据进行编码,因为是字符数据,使用的模型不能直接使用,所以对诊断进行编码后,再送进去。但是最后的结果出人意料地低,线上只有0.1几,虽说是单特征,但是这样的效果实在太低了,所以就在想是不是特征本身没有问题的,是处理数据的方式还不太好。然后偶然看到网上有对字符数据特征进行处理的文章,主要是通过word2vec对文字生成词向量,再将词向量送入到模型中进行处理。

按照文章中的做法,单是针对诊断这一特征,做了简单的转换后,生成了11076*100维的数据,11076是原本数据中的行数,100是将诊断特征生成词向量之后的大小,送进模型进行运行后,发现最后的精度提升了不少,线下达到了0.2+

 这个结果对于单特征来说已经算是还可以了,至少比之前OneHot编码要很好多了。但是到这里还只是一部分,通过对整个训练集数据的分析,不难发现其中flag0和1的个数相差太多,也就是数据的类别分类不均衡,对于这样的数据,进行训练后预测,得到的模型精度肯定也

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值