使用sklearn进行机器学习,数据挖掘

本文介绍了如何使用sklearn进行机器学习,涵盖从数据导入、预处理、模型选择到评估和保存的全过程。重点讨论了sklearn中的算法,如分类、回归、聚类和降维,并讲解了数据预处理的多种方法,包括归一化、标准化、编码等。此外,还提到了模型选择、模型评估、网格搜索、流水线处理和模型保存等实用技巧。
摘要由CSDN通过智能技术生成


sklearn是python机器学习最重要的库之一,用于数据挖掘,实现各种算法,sklearn框架概览。

sklearn概览

一、sklearn实现算法

由图中,可以看到库的算法主要有四类:分类,回归,聚类,降维。其中:

  • 常用的回归:线性、决策树、SVM、KNN ;集成回归:随机森林、Adaboost、GradientBoosting、Bagging、ExtraTrees
  • 常用的分类:线性、决策树、SVM、KNN,朴素贝叶斯;集成分类:随机森林、Adaboost、GradientBoosting、Bagging、ExtraTrees
  • 常用聚类:k均值(K-means)、层次聚类(Hierarchical clustering)、DBSCAN
  • 常用降维:LinearDiscriminantAnalysis、PCA

二、机器学习主要步骤中sklearn应用

(1)导入数据集

一般数据集分为三种,sklearn自带的,通过方法加载另一种sklearn可以生成数据还有就是自己导入自己的数据集
sklearn自带数据集

(2)数据预处理/特征工程/数据可视化

数据可视化和特征工程,数据预处理都是数据部分最重要的操作,对于适配模型有重要的作用。

详见我的另一篇特征工程博客

详见我的另一篇数据预处理博客

详见我的另一篇数据可视化博客

数据预处理包括:

  • 降维(sklearn.decomposition)
  • 缺失值处理
  • 数据归一化(from sklearn import preprocessing)
  • 数据集的标准化( preprocessing.StandardScaler(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值