学习分享:Kaggle比赛

1 实际问题分类

1.1 回归

应用:
销量预测,股市预测

方法:回归,决策树,随机森林

1.2 分类

方法: 树,逻辑回归, BN,SVM,KNN

BN简单,粗暴,数据分布很均匀,NLP上效果好
SVM适用于中小型数据集

1.3 聚类

应用:
数据降维
蕨类结果作为监督学习的特征

方法:k-means,PCA,SVD

1.4 关联分析

方法:Apriori,FP-Growth

在这里插入图片描述

2 常用工具

scikit-learn:全,封装,速度一般
pandas:数据处理(数据清洗,产出特征)
gensim:NLP
matplotlib:画图
XGBoost:模型增强(boosting的库),回归&分类
MxNet:和XGBoost是一家的
深度学习:tensorflow(显存占用高,不太快);caffe(图像);keras(接口简单,后端可以接TensorFlow,theano)

3 解决问题的流程

(1)了解场景,目标
what 问题,what数据,what结果
(2)了解评估准则
accuracy 还是 AUC(area under curve) 还是 rating(排序)
(3)认识数据
平衡?维度?缺省?
数据采样(上/下),保证样本均衡
样本分开训练,bagging
(4)数据预处理(清洗,调权)
离群点/不可信样本,丢掉
缺省值多的字段,不用
根据样本重要性,加权

工具:hive sql/spark sql
pandas,内存占用大

(5)特征工程
特征相关性计算,散点图
特征提取

数值型,类别型,时间类(间隔,持续),文本型,统计型,组合特征

特征选择

过滤型(相关),包裹型(特征重要性排序,每次选最低15%踢掉看对结果有无影响),嵌入型(特征重要度,正则化(l1有稀疏性)

每个维度求方差,波动大,对结果又帮助
(6)模型调参
(7)模型状态分析
学习曲线
交叉验证
(8)模型融合

数据(70%)>模型(30%)

参考

https://www.bilibili.com/video/BV19b411z73K?from=search&seid=15765694296636095247

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值