文章目录
sklearn是python机器学习最重要的库之一,用于数据挖掘,实现各种算法,sklearn框架概览。
一、sklearn实现算法
由图中,可以看到库的算法主要有四类:分类,回归,聚类,降维。其中:
- 常用的回归:线性、决策树、SVM、KNN ;集成回归:随机森林、Adaboost、GradientBoosting、Bagging、ExtraTrees
- 常用的分类:线性、决策树、SVM、KNN,朴素贝叶斯;集成分类:随机森林、Adaboost、GradientBoosting、Bagging、ExtraTrees
- 常用聚类:k均值(K-means)、层次聚类(Hierarchical clustering)、DBSCAN
- 常用降维:LinearDiscriminantAnalysis、PCA
二、机器学习主要步骤中sklearn应用
(1)导入数据集
一般数据集分为三种,sklearn自带的,通过方法加载;另一种sklearn可以生成数据;还有就是自己导入自己的数据集
(2)数据预处理/特征工程/数据可视化
数据可视化和特征工程,数据预处理都是数据部分最重要的操作,对于适配模型有重要的作用。
数据预处理包括:
- 降维(sklearn.decomposition)
- 缺失值处理
- 数据归一化(from sklearn import preprocessing)
- 数据集的标准化( preprocessing.StandardScaler(