使用sklearn进行机器学习，数据挖掘

最新推荐文章于 2024-03-12 08:26:36 发布

努力努力再努力F_

最新推荐文章于 2024-03-12 08:26:36 发布

阅读量1.2k

点赞数

分类专栏： kaggle学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39751437/article/details/91786404

版权

本文介绍了如何使用sklearn进行机器学习，涵盖从数据导入、预处理、模型选择到评估和保存的全过程。重点讨论了sklearn中的算法，如分类、回归、聚类和降维，并讲解了数据预处理的多种方法，包括归一化、标准化、编码等。此外，还提到了模型选择、模型评估、网格搜索、流水线处理和模型保存等实用技巧。

摘要由CSDN通过智能技术生成

文章目录

一、sklearn实现算法
二、机器学习主要步骤中sklearn应用
三、sklearn 使用技巧

sklearn是python机器学习最重要的库之一，用于数据挖掘，实现各种算法，sklearn框架概览。

sklearn概览

一、sklearn实现算法

由图中，可以看到库的算法主要有四类：分类，回归，聚类，降维。其中：

常用的回归：线性、决策树、SVM、KNN ；集成回归：随机森林、Adaboost、GradientBoosting、Bagging、ExtraTrees
常用的分类：线性、决策树、SVM、KNN，朴素贝叶斯；集成分类：随机森林、Adaboost、GradientBoosting、Bagging、ExtraTrees
常用聚类：k均值（K-means）、层次聚类（Hierarchical clustering）、DBSCAN
常用降维：LinearDiscriminantAnalysis、PCA

二、机器学习主要步骤中sklearn应用

（1）导入数据集

一般数据集分为三种，sklearn自带的，通过方法加载；另一种sklearn可以生成数据；还有就是自己导入自己的数据集
sklearn自带数据集

（2）数据预处理/特征工程/数据可视化

数据可视化和特征工程，数据预处理都是数据部分最重要的操作，对于适配模型有重要的作用。

详见我的另一篇特征工程博客

详见我的另一篇数据预处理博客

详见我的另一篇数据可视化博客

数据预处理包括：

降维（sklearn.decomposition）
缺失值处理
数据归一化（from sklearn import preprocessing）
数据集的标准化（ preprocessing.StandardScaler(

最低0.47元/天解锁文章

努力努力再努力F_

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。