收集比赛咨询,对于比赛任何一点的不理解都去找工作人员问清楚
- 官网上的细节
- 参与比赛的社群
- 还有工作人员
建立好模型优化的技术栈
- 分析数据
- 无用的特征
- 相同的特征
- 归一化特征
- 建立于test set一致的测试方法
- TSNE观察数据
- PCA观察数据
- Kfold拆分数据
- !!需要总结
- 添加特征
- 观察数据的意义
- 通用添加特征方法
- feature自己的最大最小,标准差,方差
- feature之间的+ - * /
- !!需要总结
- 降纬度
- RCFLOD降纬度
- RANDFOREST降纬度
- lasso降纬度
- PCA
- TSNE
- !!需要总结
- 调节超参数
- 贝叶斯降纬度是啥
- 神经网络如何优化
- BOOSTING如何优化
- !!需要总结
- stacking方法
- stacking的方法使用情况
- stacknet如何使用
- !!需要总结
收集好比赛信息
- 了解比赛测试数据和训练数据
- 了解主办方是否提供了哪些额外信息
- 了解是否可以添加数据
- 了解自己有什么没有知道的方案
写一个良好的代码架构
- 分析数据代码架构
- 删除只有一个值的feature
- !总结一下
- 删除有重复值的feature
- ! 总结一下
- plt画图
- sns画图
- !总结一下
- pca, TSNE画图
- 删除只有一个值的feature
- 测试模型框架
- 同样的处理train, valid,test 数据
- 验证valid的数据是否和test分布是一致的
- !总结一下
- 使用Kfold来拆分train, valid数据
- 添加特征框架
- 特征的 max, min, std, mean, media
- feature之间的 + - * /
- 如何groupby 数据
- 如何处理空值
- 更多
- 降纬度框架
- PCA降纬度
- TSNE降纬度
- randfoest降纬度
- lasso 降纬度
- 更多
- 调节超参数模型
- 建立模型架构
- 优化参数选项
- 更多
- stack架构
- 更多
总是需要重构代码
-
如果写代码的时候出现了整理代码困难的时候
-
如果写代码出现了花很多时间都解决不了问题的时候
-
如果写代码出现了觉得这个事情虽然麻烦,但是因为时间紧急必须这么做的时候
就是需要重构代码的时候!
良好的jupter方法
- 调用库文件来写操作,相互关联的块,不能超过3个
- 好的jupter方法需要及时重构到库里面,通过库来重构代码
良好的环境
- 大屏幕显示屏
- 不会卡的电脑
- 纸和笔
- 周围认真的同事
应用到现在的比赛,我能够做什么?
收集好比赛信息
- 有什么资料我不知道的
- 有什么helloworld版本
- 对于数据的解读
建立良好的框架
-
分析数据框架
-
测试框架
-
添加特征框架
-
降纬度框架
-
建立模型框架
-
调节超参数框架
做好了的话,达到的目的就是,任何一个代码的改变,我都可以立马提交分数,看到成果
建立好模型优化技术栈
- 分析数据框架
- 降纬度
- 分析数据
- 建立与test一致的测试框架
- 如何添加有效特征
- 如何减少无效特征
- 如何调优模型
做好了的话,就是我的武器库里面永远有有效武器,随时可以拿出来比赛。