python sklearn数据集及分析方法

python sklearn数据集及分析方法

sklearn库

数据集

小数据集:

数据信名称调用方式适用算法数据规模
波士顿房价数据集load_boston()回归506*13
鸢尾花数据集load_iris()分类150*4
糖尿病数据集load_diabetes()回归442*10
手写数字数据集load_digits()分类5620*64

大数据集:

数据信名称调用方式适用算法数据规模
Olivetti脸部图像数据集fetch_olivetti_faces()降维4006464
新闻分类数据集fetch_20newsgroups()分类-
带标签的人脸数据集fetch_lfw_people()分类、降维-
路透社新闻语料数据集fetch_revl()分类804414*47236

数据提取

波士顿房价数据集,回归问题
数据集包含506组数据,每条数据包含房至以及房屋周围的详细信息

城镇犯罪率一氧化氮浓度住宅平均房间数到中心区域的加权距离平均价格

数据加载

from sklearn.datasets.base import load_boston
boston=load_boston(return_X_y=Faalse) #return_X_y=True 表示以字典形式返回数据
print(boston.data.shape)
print(boston.target.shape)

鸢尾花数据集,分类问题
测量数据:萼片长度、萼片宽度、花瓣长度、花瓣宽度
类别分类:Iris Setosa,Iris Versicolour,Iris Virginica

fron sklearn.datasets.base import load_iris
iris=load_iris(return_X_y) #data,target)
print(iris.data.shape)
pirnt(iris.target.shape)
list(iris.target_names)

手写数据集
手写数字数据集包含1797个0-9的手写数字数据
每个数字由8*8大小矩阵,矩阵中值的范围是0-16,代表颜色的深度

from sklearn.datasets.base import load_digits
digits=load_digits(n_class=10,reruen_X_y=Falase) #n_class 返回类别数如=5返回0-4的数据样本
digits.data
digits.target
digits.target_names
digits.images
import matplotlib.pyplot as plt
plt.matshow(digits.images[0])
plt.show()

sklearn库的基本功能

sklearn库的共分为6大部分,分别用于完成分类任务、回归任务、聚类任务、降维任务、模型选择以及数据的预处理

分类任务

分类模型加载模块
最近邻算法sklearn.neighbors.NearestNeighbors
支持向量机sklearn.svm.SVC
朴素贝叶斯sklearn.naive_bayes.GaussianNB
决策树sklearn.tree.DecisionTreeClassifier
集成方法sklearn.ensemble.BaggingClassifier
神经网络sklearn.neural_network.MLPClassifier

回归任务

回归模型加载模块
岭回归sklearn.linear_model.Ridge
Lasso回归sklearn.linear_model.Lasso
弹性网络sklearn.linear_model.ElasticNet
最小角回归sklearn.linear_model.Lars
贝叶斯回归sklearn.linear_model.BayesianRidge
逻辑回归sklearn.linear_model.LogisticRegression
多项式回归sklearn.preprocessing.PolynomialFeatures

聚类任务

聚类方法加载模块
K-meanssklearn.cluster.KMeans
AP聚类sklearn.cluster.AffinityPropagation
均值漂移sklearn.cluster.MeanShift
层次聚类sklearn.cluster.AgglomerativeClustering
DBSCANsklearn.cluster.DBSCAN
BIRCHsklearn.cluster.Birch
谱聚类sklearn.cluster.SpectralClustering

降维任务

降维方法加载模块
主成分分析sklearn.decomposition.PCA
截断SVD和LSAsklearn.decomposition.TruncatedSVD
字典学习sklearn.decomposition.SparseCoder
因子分析sklearn.decomposition.FactorAnalysis
独立成分分析sklearn.decomposition.FastICA
非负矩阵分解sklearn.decomposition.NMF
LDAsklearn.decomposition.LatentDirichletAllocation
  • 7
    点赞
  • 52
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
sklearn是一个基于Python语言的第三方模块,提供了简单高效的数据挖掘和数据分析工具。它集成了一些常用的机器学习方法,使得进行机器学习任务时不需要实现算法,只需调用sklearn库中提供的模块即可完成大部分的机器学习任务。sklearn库是在Numpy、Scipy和matplotib的基础上开发而成的。 sklearn中内置了一些常用的数据集,如鸢尾花数据集(iris)、波士顿房价数据集(boston)和手写数字数据集(digits)等。这些数据集在学习和实践中被广泛使用。可以通过调用相关模块来加载和使用这些数据集。比如,可以使用sklearn.datasets模块的load_函数来加载数据集。例如,使用datasets.load_boston()可以加载波士顿房价数据集。 可以使用这些数据集来进行数据预处理和特征工程,在机器学习任务中起到了重要的作用。通过对数据集的了解和处理,可以更好地理解数据的特征和分布,从而提高模型的准确性和性能。 总结来说,sklearn提供了丰富的数据集和相关的操作方法,可以方便地进行数据分析和机器学习任务。它是一个强大的工具,可以帮助我们更好地理解和处理数据。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [机器学习:数据的划分和介绍](https://blog.csdn.net/qq_45315982/article/details/103311165)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* *3* [Python-Sklearn内置数据集介绍与“三板斧”](https://blog.csdn.net/rettbbetter/article/details/128859438)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值