这节内容很详细齐全,跟着里面的思路走,差不多就能把sklearn的用法以及建模的套路弄懂。一边学习一边理解一边操作一起开始sklearn的学习吧~
sklearn介绍
scikit-learn是数据挖掘与分析的简单而有效的工具。
依赖于NumPy, SciPy和matplotlib。
首先要知道的是sklearn中包含的主要功能有什么?
- classification 分类
- Regression 回归
- Clustering 聚类
- Dimensionality reduction 降维
- Model selection 模型选择
- Preprocessing 预处理
接着对上面的模块进行细分,看看主要的模块分类以及每个模块包含的内容:
-
- sklearn.base: Base classes and utility function 基础实用函数
- sklearn.cluster: Clustering 聚类
- sklearn.cluster.bicluster: Biclustering 双向聚类
- sklearn.covariance: Covariance Estimators 协方差估计
- sklearn.model_selection: Model Selection 模型选择
- sklearn.datasets: Datasets 数据集
- sklearn.decomposition: Matrix Decomposition 矩阵分解
- sklearn.dummy: Dummy estimators 虚拟估计
- sklearn.ensemble: Ensemble Methods 集成方法
- sklearn.exceptions: Exceptions and warnings 异常和警告
- sklearn.feature_extraction: Feature Extraction 特征抽取
- sklearn.feature_selection: Feature Selection 特征选择
- sklearn.gaussian_process: Gaussian Processes 高斯过程
- sklearn.isotonic: Isotonic regression 保序回归
- sklearn.kernel_approximation: Kernel Approximation 核 逼近
- sklearn.kernel_ridge: Kernel Ridge Regression 岭回归ridge
- sklearn.discriminant_analysis: Discriminant Analysis 判别分析
- sklearn.linear_model: Generalized Linear Models 广义线性模型
- sklearn.manifold: Manifold Learning 流形学习
- sklearn.metrics: Metrics 度量 权值
- sklearn.mixture: Gaussian Mixture Models 高斯混合模型
- sklearn.multiclass: Multiclass and multilabel classification 多等级标签分类
- sklearn.multioutput: Multioutput regression and classification 多元回归和分类
- sklearn.naive_bayes: Naive Bayes 朴素贝叶斯
- sklearn.neighbors: Nearest Neighbors 最近邻
- sklearn.neural_ne