机器学习

最新推荐文章于 2024-08-28 09:42:51 发布

秘境之眼

最新推荐文章于 2024-08-28 09:42:51 发布

阅读量794

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/TxyITxs/article/details/93323989

版权

机器学习专栏收录该内容

11 篇文章 2 订阅

订阅专栏

机器学习

sklearn基础功能：

主要使用python的sklearn库:sklearn库共分为6大部分，分别用于完成分类任务、回归任务、聚类任务、降维任务、模型选择以及数据的预处理。

各模块功能介绍

分类任务
分类模型	加载模块
最近邻算法	neighbors.NearestNeighbors
支持向量机	svw.SVC
朴素贝叶斯	naive_bayes.GaussianNB
决策树	tree.DecisionTreeClassifier
集成方法	ensemble.BaggingClassifier
神经网络	neural_network.MLPClassifier

回归任务
回归模型	加载模块
岭回归	linear_model.Ridge
Lasso回归	linear_model.Lasso
弹性网络	linear_model.ElasticNet
最小角回归	linear_model.Lars
贝叶斯回归	linear_model.BayesianRidge
逻辑回归	linear_model.LogisticRegression
多项式回归	preprocessing.PolynomialFeatures

聚类任务
聚类方法	加载模块
K-means	cluster.KMeans
AP聚类	cluster.AffinityPropagation
均值漂移	cluster.MeanShift
层次聚类	cluster.AgglomerativeClustering
DBSCAN	cluster.DBSCAN
BIRCH	cluster.Birch
谱聚类	cluster.SpectralClustering

降维任务
降维方法	加载模块
主成分分析	decomposition.PCA
截断SVD和LSA	decomposition.TruncatedSVD
字典学习	decomposition.SparseCoder
因子分析	decomposition.FactorAnalysis
独立成分分析	decomposition.FastICA
非负矩阵分解	decomposition.NMF
LDA	decomposition.LatentDirichletAllocation

通过sklearn库自带的数据集学习模拟应用

手写数字数据集

#手写数字数据集
from sklearn.datasets import load_digits
digits=load_digits()
'''
#加载数据集，
#参数:
    return_X_y:若为True,则以（data,target）形式返回，
        默认为False,表示以字典形式返回数据全部信息（data和target）
    n_class:表示返回数据的类别数，
'''
print(digits.data.shape)    #打印数据维度
print(digits.target.shape)
print(digits.images.shape)  

import matplotlib.pyplot as plt#显示图片
plt.matshow(digits.images[0])
plt.show()

鸢尾花数据集

'''
鸢尾花数据集
    1.数据为鸢尾花的测量数据及其所属的类别，包括萼片长度，萼片宽度
        花瓣长度，花瓣宽度，共分为三类，Iris Setosa,Iris Versicolour,
        Iris Virginica,可用于多分类问题。
    2.load_iris()函数参数:
        return_X_y:若为True,则以（data,target）形式返回is
        默认为False,表示以字典形式返回数据全部信息（data和target）
    n_class:表示返回数据的类别数
'''
from sklearn.datasets import load_iris
iris=load_iris()
print(iris.data.shape)

print(iris.data.shape)
print(iris.target.shape)
print(list(iris.target_names))

波士顿房价数据集，可以应用到回归问题上。

#波斯顿房价数据集
from sklearn.datasets import load_boston
'''
    2.load_boston()函数参数:
        return_X_y:若为True,则以（data,target）形式返回is
        默认为False,表示以字典形式返回数据全部信息（data和target）
'''
boston=load_boston()
print(boston.data.shape)

bostondata,bostontarget=load_boston(return_X_y=True)
print(bostondata.shape)
print(bostontarget.shape)

数据集总览

总览
	数据集名称	调用方式	适用算法	数据规模
小数据集	波士顿房价数据集	load_boston（）	回归	506*13
	鸢尾花数据集	load_iris（）	分类	150*4
	糖尿病数据集	load_diabetes（）	回归	442*10
	手写数字数据集	load_digits（）	分类	5620*64
小数据集	Olivetti脸部图像数据	fetch_olivetti_faces()	降维	4006464
	新闻分类数据集	fetch_20newsgroups()	分类	-
	带标签的人脸数据集	fetch_lfw_people()	分类；降维	-
	路透社新闻语料数据集	fetch_rcvl()	分类	804414*47236