天池O2O优惠券预测之后的一些个人思考

最新推荐文章于 2024-07-18 22:21:42 发布

走在路上的小四

最新推荐文章于 2024-07-18 22:21:42 发布

阅读量692

点赞数 1

分类专栏：成长文章标签：天池O2O 优惠券预测

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_22667041/article/details/85573911

版权

作者通过参与天池O2O优惠券预测项目，反思了自己的错误，如忽视特征含义、处理数据时的低级错误。总结中强调特征工程对模型的重要性，认为特征应结合业务，且不均衡样本需考虑。同时指出基础、思考角度和经验的不足是提升的关键。

摘要由CSDN通过智能技术生成

背景：

我本身是从事过python的开发工作，接触过pandas，numpy等机器学习相关的库。但是，并没有实际意义上做过机器学习相关的项目。做此课题的目的也是为了熟悉一下机器学习的流程。

错误

先说说自己的错误吧，认识自己犯下的错误往往会更重要一些。

未去解读每个特征的含义。

在刚拿到这个题目时，我起初并没有仔细的去阅读题目的具体含义。这是是我认为最严重的做错。不清楚需求的情况下盲目的去下手。在遇到缺省值的情况下，未加思考的进行了缺省值的填补。在后期读懂题意之后重新做了一些特征工程上的调整，也借鉴了别人优秀的思路，算是磕磕绊绊的把特征工程完成了。
在使用pandas中merge函数时，出现了样本呈笛卡尔积增长的问题

起初在遇到这个问题时，IDE给我的报错是内存不足，我自己也认为是数据集过大导致的。因为前期提取了56个特征，所以我第一时间会想是不是因为样本的问题。所以在特征方面我花了大量的时间去验证。在这里我犯下了一个低级错误，在遇到问题时，没有使用debug逐步的去排除问题！！！！在经过后期的debug排查后发现，是因为自己在merge过程中合并了一个用来聚合的中间字段，导致了这样的问题。这里我又犯下了一个低级错误，代码的注释为什么在一段内容中没备注清楚！！！！

最低0.47元/天解锁文章

走在路上的小四

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。