python sklearn数据集及分析方法

python sklearn数据集及分析方法

sklearn库

数据集

小数据集:

数据信名称调用方式适用算法数据规模
波士顿房价数据集load_boston()回归506*13
鸢尾花数据集load_iris()分类150*4
糖尿病数据集load_diabetes()回归442*10
手写数字数据集load_digits()分类5620*64

大数据集:

数据信名称调用方式适用算法数据规模
Olivetti脸部图像数据集fetch_olivetti_faces()降维4006464
新闻分类数据集fetch_20newsgroups()分类-
带标签的人脸数据集fetch_lfw_people()分类、降维-
路透社新闻语料数据集fetch_revl()分类804414*47236

数据提取

波士顿房价数据集,回归问题
数据集包含506组数据,每条数据包含房至以及房屋周围的详细信息

城镇犯罪率一氧化氮浓度住宅平均房间数到中心区域的加权距离平均价格

数据加载

from sklearn.datasets.base import load_boston
boston=load_boston(return_X_y=Faalse) #return_X_y=True 表示以字典形式返回数据
print(boston.data.shape)
print(boston.target.shape)

鸢尾花数据集,分类问题
测量数据:萼片长度、萼片宽度、花瓣长度、花瓣宽度
类别分类:Iris Setosa,Iris Versicolour,Iris Virginica

fron sklearn.datasets.base import load_iris
iris=load_iris(return_X_y) #data,target)
print(iris.data.shape)
pirnt(iris.target.shape)
list(iris.target_names)

手写数据集
手写数字数据集包含1797个0-9的手写数字数据
每个数字由8*8大小矩阵,矩阵中值的范围是0-16,代表颜色的深度

from sklearn.datasets.base import load_digits
digits=load_digits(n_class=10,reruen_X_y=Falase) #n_class 返回类别数如=5返回0-4的数据样本
digits.data
digits.target
digits.target_names
digits.images
import matplotlib.pyplot as plt
plt.matshow(digits.images[0])
plt.show()

sklearn库的基本功能

sklearn库的共分为6大部分,分别用于完成分类任务、回归任务、聚类任务、降维任务、模型选择以及数据的预处理

分类任务

分类模型加载模块
最近邻算法sklearn.neighbors.NearestNeighbors
支持向量机sklearn.svm.SVC
朴素贝叶斯sklearn.naive_bayes.GaussianNB
决策树sklearn.tree.DecisionTreeClassifier
集成方法sklearn.ensemble.BaggingClassifier
神经网络sklearn.neural_network.MLPClassifier

回归任务

回归模型加载模块
岭回归sklearn.linear_model.Ridge
Lasso回归sklearn.linear_model.Lasso
弹性网络sklearn.linear_model.ElasticNet
最小角回归sklearn.linear_model.Lars
贝叶斯回归sklearn.linear_model.BayesianRidge
逻辑回归sklearn.linear_model.LogisticRegression
多项式回归sklearn.preprocessing.PolynomialFeatures

聚类任务

聚类方法加载模块
K-meanssklearn.cluster.KMeans
AP聚类sklearn.cluster.AffinityPropagation
均值漂移sklearn.cluster.MeanShift
层次聚类sklearn.cluster.AgglomerativeClustering
DBSCANsklearn.cluster.DBSCAN
BIRCHsklearn.cluster.Birch
谱聚类sklearn.cluster.SpectralClustering

降维任务

降维方法加载模块
主成分分析sklearn.decomposition.PCA
截断SVD和LSAsklearn.decomposition.TruncatedSVD
字典学习sklearn.decomposition.SparseCoder
因子分析sklearn.decomposition.FactorAnalysis
独立成分分析sklearn.decomposition.FastICA
非负矩阵分解sklearn.decomposition.NMF
LDAsklearn.decomposition.LatentDirichletAllocation
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值