数据的准确性对模型效果的重要性

今天讲一个性别预测问题,采用 LR 模型,特征选择( App 的安装、卸载、操作、昵称、手机颜色、手机型号、手机前置摄像头使用、镜子 App 使用等维度)。下面是相同的特征工程,但是由于数据源的过滤策略不同问题,导致模型训练效果差别巨大。

1、数据未经过特定数据过滤


2、数据经过去冲突、去默认值过滤


3、结论
1)第一幅图中,男性预测精确率为83.27%,召回率95.73%,女性精确率为72.59%,召回率37.03%
第二幅图,男性预测精确率为93.25%,召回率94.91%,女性精确率为82.66%,召回率77.93%。明显过滤的预测效果要比未过滤好很多。
2)数据源的清晰和质量的保证对模型训练的影响巨大。
有一句话:数据和特征工程决定了机器学习的上限,算法只是逼近这个上限。 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值