天池商铺定位数据挖掘竞赛思路总结

天池数据挖掘竞赛是国内数据挖掘圈是很正规,规模很大,组织很好的竞赛平台。作为在读的一名数据挖掘小白,怀着当炮灰的念头,毅然决然的参加了这次竞赛。

赛题在这里就不详细描述,有兴趣的朋友可以去天池搜索,商铺定位比赛。主要是告诉你用户去逛商场的时候,手机会搜到wifi热点,通过给你wifi列表,用户交易时经纬度,交易时间,店铺经纬度,店铺类型,店铺价格和商场名称等信息,让你去预测该用户再次发生交易时,位于哪家店铺。训练集给出了2017年8月一整月的数据,让你去预测2017年9月前两周的商铺定位情况。

数据挖掘竞赛有一个基本的流程,首先对问题进行分析,然后进行数据预处理,然后继续进行传说中最厉害的特征工程,最后利用模型去对目标问题进行分析预测,得到结果。有些朋友的博客也分析的比较清楚,这里就不赘述了。在这里主要给出题目的分析思路和自己操作的结果

在比赛的开始阶段,可以很明显的想到wifi是能够确定店铺的关键因素。后续的事实也证明了wifi的重要性。起初我们在做规则学习,利用wifi的强度构造了wifi距离,也就是在训练集中,对每一个样本的wifi序列出现的强度值求均值,然后利用测试样本中每一个样本的wifi序列和训练样本中wifi序列中的交集部分求欧式距离,最终取距离最近的店铺作为预测结果。起初这样做,效果很差,正确率只有0.16。

后来发现会出现有两个训练样本和一个测试样本算距离,一个交集个数为4,一个交集个数为3,但是按照交集个数的算了相应wifi的距离后是4(假设每个wifi距离为1)和3,我们的思路会将测试样本的答案分配给交集个数为3的店铺,但这与实际不相符合,一般来说交集个

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值