python sklearn数据集及分析方法

最新推荐文章于 2024-08-09 00:05:36 发布

Rankiy

最新推荐文章于 2024-08-09 00:05:36 发布

阅读量3.7k

点赞数 7

分类专栏： python库文章标签： python sklearn

本文链接：https://blog.csdn.net/rankiy/article/details/99825295

版权

python库专栏收录该内容

11 篇文章 3 订阅

订阅专栏

python sklearn数据集及分析方法

sklearn库

数据集

小数据集：

数据信名称	调用方式	适用算法	数据规模
波士顿房价数据集	load_boston()	回归	506*13
鸢尾花数据集	load_iris()	分类	150*4
糖尿病数据集	load_diabetes()	回归	442*10
手写数字数据集	load_digits()	分类	5620*64

大数据集：

数据信名称	调用方式	适用算法	数据规模
Olivetti脸部图像数据集	fetch_olivetti_faces()	降维	4006464
新闻分类数据集	fetch_20newsgroups()	分类	-
带标签的人脸数据集	fetch_lfw_people()	分类、降维	-
路透社新闻语料数据集	fetch_revl()	分类	804414*47236

数据提取

波士顿房价数据集，回归问题
数据集包含506组数据，每条数据包含房至以及房屋周围的详细信息

城镇犯罪率	一氧化氮浓度	住宅平均房间数	到中心区域的加权距离	平均价格

数据加载

from sklearn.datasets.base import load_boston
boston=load_boston(return_X_y=Faalse) #return_X_y=True 表示以字典形式返回数据
print(boston.data.shape)
print(boston.target.shape)

鸢尾花数据集,分类问题
测量数据：萼片长度、萼片宽度、花瓣长度、花瓣宽度
类别分类：Iris Setosa,Iris Versicolour,Iris Virginica

fron sklearn.datasets.base import load_iris
iris=load_iris(return_X_y) #data,target)
print(iris.data.shape)
pirnt(iris.target.shape)
list(iris.target_names)

手写数据集
手写数字数据集包含1797个0-9的手写数字数据
每个数字由8*8大小矩阵，矩阵中值的范围是0-16，代表颜色的深度

from sklearn.datasets.base import load_digits
digits=load_digits(n_class=10,reruen_X_y=Falase) #n_class 返回类别数如=5返回0-4的数据样本
digits.data
digits.target
digits.target_names
digits.images

import matplotlib.pyplot as plt
plt.matshow(digits.images[0])
plt.show()

sklearn库的基本功能

sklearn库的共分为6大部分，分别用于完成分类任务、回归任务、聚类任务、降维任务、模型选择以及数据的预处理

分类任务

分类模型	加载模块
最近邻算法	sklearn.neighbors.NearestNeighbors
支持向量机	sklearn.svm.SVC
朴素贝叶斯	sklearn.naive_bayes.GaussianNB
决策树	sklearn.tree.DecisionTreeClassifier
集成方法	sklearn.ensemble.BaggingClassifier
神经网络	sklearn.neural_network.MLPClassifier

回归任务

回归模型	加载模块
岭回归	sklearn.linear_model.Ridge
Lasso回归	sklearn.linear_model.Lasso
弹性网络	sklearn.linear_model.ElasticNet
最小角回归	sklearn.linear_model.Lars
贝叶斯回归	sklearn.linear_model.BayesianRidge
逻辑回归	sklearn.linear_model.LogisticRegression
多项式回归	sklearn.preprocessing.PolynomialFeatures

聚类任务

聚类方法	加载模块
K-means	sklearn.cluster.KMeans
AP聚类	sklearn.cluster.AffinityPropagation
均值漂移	sklearn.cluster.MeanShift
层次聚类	sklearn.cluster.AgglomerativeClustering
DBSCAN	sklearn.cluster.DBSCAN
BIRCH	sklearn.cluster.Birch
谱聚类	sklearn.cluster.SpectralClustering

降维任务

降维方法	加载模块
主成分分析	sklearn.decomposition.PCA
截断SVD和LSA	sklearn.decomposition.TruncatedSVD
字典学习	sklearn.decomposition.SparseCoder
因子分析	sklearn.decomposition.FactorAnalysis
独立成分分析	sklearn.decomposition.FastICA
非负矩阵分解	sklearn.decomposition.NMF
LDA	sklearn.decomposition.LatentDirichletAllocation