SKlearn学习1

MG学习SKlearn之路

大家好!这是我第一次写博客,目前的我还是个小白,学习的资源大部分是来源与其他大佬写的博客和网站,目前我只是对其进行自我归纳和总结,有错误的地方请大佬们指出,日后会不定时更新,谢谢大家。

SKlearn自带的数据集预处理

from sklearn import datasets #导入数据集包。
学习过程中常用到的数据集有:

	datas=datasets.load_iris()#鸢尾花数据集,特征变量为4
	datas=datasets.load_boston()#波士顿房价数据集,datas.shape=[506,13]
	datas=datasets.load_digits()#手写字体数据集

数据分割:

	X=datas.data#测试数据
	y=datas.target#标签数据
	from sklearn.model_selection import train_test_split#将数据分为测试集和训练集
    X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3)#test_size-0.3,即70%为训练集、30%为测试集

数据的规范化

from sklearn import prepocessing:该包提供有几种不同方式将数据规范化的函数。
(1)X=prepocessing.scale(X)#将均值=0、方差=1;
(2)X=prepocessing.minmax_scale(X,feature_range=(low,high),axis=0,copy=True)#feature_range:缩放范围、axis=0:独立的标准化每个特征(按列);axis=1:标准化每个样本(按行)。数学公式:X=(X-X.min)/(X.max-X.min)*(high-low)+low

本章用到的SKlearn分类模式

#1、
from sklearn.neighbors import KNeighborsClassifier
KNeighborsClassifier.fit(X_test,y_train)#利用k邻近方式训练
#2、
from sklearn.svm import SVC#支持向量机
SVC.fit(X_test,y_train)

交叉验证

常用的交叉验证方法:5折交叉验证: Alt
导入交叉验证包:

from sklearn.model_selection import cross_val_score#引入交叉验证
#选择邻近的5个点
knn=KNeighborsClassifier(n_neighbors=5)
scores=cross_val_score(knn,X,y,cv=5,scoring='accuracy')
scores_mean=scores.mean()#所有评分的均值

cross_val_score方法:对数据集进行多次分割,根据不同的训练集进行模型训练,再通过每次分的测试集进行模型评分;获得scores(numpy.ndarray)类型的评分。

参数:
cv:分割的次数
scoring:评分的方法。'accuracy’表示根据准确度评分

修正过拟合

常用模型调优的函数:

from sklearn.model_selection import validation_curve
from sklearn.model_selection import learning_curve

learning_curve():通过可视化模型判断是否过拟合
validation_curve():通过查看不同参数取值下模型的性能

保存模型

SKlearn有自带的保存模块.
模型保存:

from sklearn.externals import joblib
joblib.dump(model,path)#model:要保存的模型;path:保存路径

加载模型:

model=joblib.load(path)

参考资料

Python之Sklearn使用教程](https://www.jianshu.com/p/6ada34655862)

Sklearn是一个流行的Python机器学习库,它提供了丰富的工具和算法,用于数据预处理、特征工程、模型选择和评估等任务。如果你想学习Sklearn,以下是一个学习路线的参考: 1. 首先,你可以先了解Sklearn的基本概念和常用函数。可以通过阅读官方文档、教程或者书籍来深入理解Sklearn的API和功能。 2. 掌握数据预处理技术。Sklearn提供了丰富的数据预处理方法,包括特征缩放、数据标准化、数据平衡等。你可以通过学习Sklearn的Preprocessing模块来了解和应用这些技术。 3. 学习不同类型的机器学习算法。Sklearn支持多种机器学习算法,包括分类、回归、聚类、降维等。你可以通过学习Sklearn的各个子模块(如Classification、Regression、Clustering等)来了解和应用这些算法。 4. 理解模型评估和选择方法。Sklearn提供了多种模型评估指标和交叉验证技术,可以帮助你评估模型性能并选择最合适的模型。你可以学习Sklearn的Model Evaluation模块来了解如何评估和选择模型。 5. 实践项目和案例研究。通过实际项目和案例研究,你可以将所学的Sklearn知识应用到实际情境中,并深入理解不同算法的应用场景和优缺点。 6. 持续学习和探索。Sklearn是一个不断更新和演进的库,你可以通过阅读官方文档、参与社区讨论和阅读相关论文等方式,持续学习和探索Sklearn的新特性和最佳实践。 综上所述,这是一个初学者学习Sklearn的基本路线。通过深入学习和实践,你可以逐渐掌握Sklearn的使用技巧和机器学习的基本原理。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值