天池O2O优惠券预测之后的一些个人思考

作者通过参与天池O2O优惠券预测项目,反思了自己的错误,如忽视特征含义、处理数据时的低级错误。总结中强调特征工程对模型的重要性,认为特征应结合业务,且不均衡样本需考虑。同时指出基础、思考角度和经验的不足是提升的关键。
摘要由CSDN通过智能技术生成

背景:

  我本身是从事过python的开发工作,接触过pandas,numpy等机器学习相关的库。但是,并没有实际意义上做过机器学习相关的项目。做此课题的目的也是为了熟悉一下机器学习的流程。

错误

 先说说自己的错误吧,认识自己犯下的错误往往会更重要一些。

  1. 未去解读每个特征的含义。

    在刚拿到这个题目时,我起初并没有仔细的去阅读题目的具体含义。这是是我认为最严重的做错。不清楚需求的情况下盲目的去下手。在遇到缺省值的情况下,未加思考的进行了缺省值的填补。在后期读懂题意之后重新做了一些特征工程上的调整,也借鉴了别人优秀的思路,算是磕磕绊绊的把特征工程完成了。

  2. 在使用pandas中merge函数时,出现了样本呈笛卡尔积增长的问题

    起初在遇到这个问题时,IDE给我的报错是内存不足,我自己也认为是数据集过大导致的。因为前期提取了56个特征,所以我第一时间会想是不是因为样本的问题。所以在特征方面我花了大量的时间去验证。在这里我犯下了一个低级错误,在遇到问题时,没有使用debug逐步的去排除问题!!!!在经过后期的debug排查后发现,是因为自己在merge过程中合并了一个用来聚合的中间字段,导致了这样的问题。这里我又犯下了一个低级错误,代码的注释为什么在一段内容中没备注清楚!!!!

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值