python sklearn数据集及分析方法
sklearn库
数据集
小数据集:
数据信名称 | 调用方式 | 适用算法 | 数据规模 |
---|---|---|---|
波士顿房价数据集 | load_boston() | 回归 | 506*13 |
鸢尾花数据集 | load_iris() | 分类 | 150*4 |
糖尿病数据集 | load_diabetes() | 回归 | 442*10 |
手写数字数据集 | load_digits() | 分类 | 5620*64 |
大数据集:
数据信名称 | 调用方式 | 适用算法 | 数据规模 |
---|---|---|---|
Olivetti脸部图像数据集 | fetch_olivetti_faces() | 降维 | 4006464 |
新闻分类数据集 | fetch_20newsgroups() | 分类 | - |
带标签的人脸数据集 | fetch_lfw_people() | 分类、降维 | - |
路透社新闻语料数据集 | fetch_revl() | 分类 | 804414*47236 |
数据提取
波士顿房价数据集,回归问题
数据集包含506组数据,每条数据包含房至以及房屋周围的详细信息
城镇犯罪率 | 一氧化氮浓度 | 住宅平均房间数 | 到中心区域的加权距离 | 平均价格 |
---|
数据加载
from sklearn.datasets.base import load_boston
boston=load_boston(return_X_y=Faalse) #return_X_y=True 表示以字典形式返回数据
print(boston.data.shape)
print(boston.target.shape)
鸢尾花数据集,分类问题
测量数据:萼片长度、萼片宽度、花瓣长度、花瓣宽度
类别分类:Iris Setosa,Iris Versicolour,Iris Virginica
fron sklearn.datasets.base import load_iris
iris=load_iris(return_X_y) #data,target)
print(iris.data.shape)
pirnt(iris.target.shape)
list(iris.target_names)
手写数据集
手写数字数据集包含1797个0-9的手写数字数据
每个数字由8*8大小矩阵,矩阵中值的范围是0-16,代表颜色的深度
from sklearn.datasets.base import load_digits
digits=load_digits(n_class=10,reruen_X_y=Falase) #n_class 返回类别数如=5返回0-4的数据样本
digits.data
digits.target
digits.target_names
digits.images
import matplotlib.pyplot as plt
plt.matshow(digits.images[0])
plt.show()
sklearn库的基本功能
sklearn库的共分为6大部分,分别用于完成分类任务、回归任务、聚类任务、降维任务、模型选择以及数据的预处理
分类任务
分类模型 | 加载模块 |
---|---|
最近邻算法 | sklearn.neighbors.NearestNeighbors |
支持向量机 | sklearn.svm.SVC |
朴素贝叶斯 | sklearn.naive_bayes.GaussianNB |
决策树 | sklearn.tree.DecisionTreeClassifier |
集成方法 | sklearn.ensemble.BaggingClassifier |
神经网络 | sklearn.neural_network.MLPClassifier |
回归任务
回归模型 | 加载模块 |
---|---|
岭回归 | sklearn.linear_model.Ridge |
Lasso回归 | sklearn.linear_model.Lasso |
弹性网络 | sklearn.linear_model.ElasticNet |
最小角回归 | sklearn.linear_model.Lars |
贝叶斯回归 | sklearn.linear_model.BayesianRidge |
逻辑回归 | sklearn.linear_model.LogisticRegression |
多项式回归 | sklearn.preprocessing.PolynomialFeatures |
聚类任务
聚类方法 | 加载模块 |
---|---|
K-means | sklearn.cluster.KMeans |
AP聚类 | sklearn.cluster.AffinityPropagation |
均值漂移 | sklearn.cluster.MeanShift |
层次聚类 | sklearn.cluster.AgglomerativeClustering |
DBSCAN | sklearn.cluster.DBSCAN |
BIRCH | sklearn.cluster.Birch |
谱聚类 | sklearn.cluster.SpectralClustering |
降维任务
降维方法 | 加载模块 |
---|---|
主成分分析 | sklearn.decomposition.PCA |
截断SVD和LSA | sklearn.decomposition.TruncatedSVD |
字典学习 | sklearn.decomposition.SparseCoder |
因子分析 | sklearn.decomposition.FactorAnalysis |
独立成分分析 | sklearn.decomposition.FastICA |
非负矩阵分解 | sklearn.decomposition.NMF |
LDA | sklearn.decomposition.LatentDirichletAllocation |