对sklearn的初步了解

最新推荐文章于 2024-09-27 16:58:43 发布

m0_73930236

最新推荐文章于 2024-09-27 16:58:43 发布

阅读量330

点赞数

文章标签： sklearn python

本文链接：https://blog.csdn.net/m0_73930236/article/details/127741729

版权

sklearn库

文章目录

sklearn库

一.介绍

skearn库是python中用于机器学习的一个学习工具，它建立在numpy，pandas，matplotlib之上，对常用的机器学习进行封装，包括回归，降维，分类，聚类等方法。

二.模块使用大致介绍

在 Sklearn 里面有六大任务模块：分别是分类、回归、聚类、降维、模型选择和预处理.

要使用上述六大模块的方法，可以用以下的伪代码，注意 import 后面我用的都是一些通用名称，如 SomeClassifier, SomeRegressor, SomeModel，具体化的名称由具体问题而定，比如

SomeClassifier = RandomForestClassifier
SomeRegressor = LinearRegression
SomeModel = KMeans, PCA
SomeModel = GridSearchCV, OneHotEncoder

2.1 分类


from sklearn import SomeClassifier	
from sklearn.linear_model import SomeClassifier	
from sklearn.ensemble import SomeClassifier

2.2 回归

from sklearn import SomeRegressor	
from sklearn.linear_model import SomeRegressor	
from sklearn.ensemble import SomeRegressor

2.3 聚类

from sklearn.cluster import SomeModel

2.4 降维

from sklearn.decomposition import SomeModel

2.5 模型选择

from sklearn.model_selection import SomeModel

2.6 预处理

from sklearn.preprocessing import SomeModel

2.7 数据集

Sklearn 里面还有很多自带数据集供，引入它们的伪代码如下

from sklearn.datasets import SomeData

三. 小例子

from sklearn import datasets
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt

#使用以后的数据集进行线性回归（这里是波士顿房价数据）
loaded_data=datasets.load_boston()
data_X=loaded_data.data
data_y=loaded_data.target

model=LinearRegression()
model.fit(data_X,data_y)

print(model.predict(data_X[:4,:]))
print(data_y[:4])

#使用生成线性回归的数据集，最后的数据集结果用散点图表示
X,y=datasets.make_regression(n_samples=100,n_features=1,n_targets=1,noise=10)   #n_samples表示样本数目，n_features特征的数目  n_tragets  noise噪音
plt.scatter(X,y)
plt.show()