Kaggle机器学习竞赛通用流程

最新推荐文章于 2024-06-03 18:30:00 发布

LotusQ

最新推荐文章于 2024-06-03 18:30:00 发布

阅读量253

点赞数

分类专栏：面试之路

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_30057549/article/details/104201249

版权

大部分时间都用于数据清理、处理以及格式转化，然后再应用机器学习模型。

工业应用：
经济相关：股市、房价预测；
能源相关：产能预测、分配与合理使用；
NLP相关：检索、分类、主题、相似度；
互联网用户行为：CTR预测；
销量预测：电商、连锁店、超市；
深度学习应用：图像内容理解；
推荐系统相关：电商推荐；
其他预测：气候、社交网络分析。

工具和算法：
非监督学习：

聚类&降维(SVD、PCA、K-means)
关联分析（Apriori、FP-Growth）
隐马尔可夫模型

监督学习：

回归(线性、多项式）
决策树
随机森林
分类（KNN、Trees、LR、NB、SVM）

常用工具：
scikit-learn、gensim、NumPy、XGBoost、matplotlib、pandas、Natural Language Toolkit、TensorFlow、Caffe、Keras

建模流程：

数据处理

数据清洗—丢掉不可信样本、删除缺省值较多字段
数据采样—下/上采样、保证样本均衡
工具—hive sql/spark sql、pandas

特征工程
这里只总结下特征预处理相

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Kaggle机器学习竞赛通用流程

同样适用于其他机器学习比赛。工业应用：经济相关：股市、房价预测；能源相关：产能预测、分配与合理使用；NLP相关：检索、分类、主题、相似度；互联网用户行为：CTR预测；销量预测：电商、连锁店、超市；深度学习应用：图像内容理解；推荐系统相关：电商推荐；其他预测：气候、社交网络分析。工具和算法：非监督学习：聚类&降维(SVD、PCA、K-means)关联分析（Apri...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。