对sklearn的初步了解

sklearn库

一.介绍

skearn库是python中用于机器学习的一个学习工具,它建立在numpy,pandas,matplotlib之上,对常用的机器学习进行封装,包括回归,降维,分类,聚类等方法。

二.模块使用大致介绍

在 Sklearn 里面有六大任务模块:分别是分类、回归、聚类、降维、模型选择和预处理.

要使用上述六大模块的方法,可以用以下的伪代码,注意 import 后面我用的都是一些通用名称,如 SomeClassifier, SomeRegressor, SomeModel,具体化的名称由具体问题而定,比如

  • SomeClassifier = RandomForestClassifier
  • SomeRegressor = LinearRegression
  • SomeModel = KMeans, PCA
  • SomeModel = GridSearchCV, OneHotEncoder

2.1 分类


from sklearn import SomeClassifier	
from sklearn.linear_model import SomeClassifier	
from sklearn.ensemble import SomeClassifier

2.2 回归

from sklearn import SomeRegressor	
from sklearn.linear_model import SomeRegressor	
from sklearn.ensemble import SomeRegressor

2.3 聚类

from sklearn.cluster import SomeModel

2.4 降维

from sklearn.decomposition import SomeModel

2.5 模型选择

from sklearn.model_selection import SomeModel

2.6 预处理

from sklearn.preprocessing import SomeModel

2.7 数据集

Sklearn 里面还有很多自带数据集供,引入它们的伪代码如下

from sklearn.datasets import SomeData

三. 小例子

from sklearn import datasets
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt

#使用以后的数据集进行线性回归(这里是波士顿房价数据)
loaded_data=datasets.load_boston()
data_X=loaded_data.data
data_y=loaded_data.target

model=LinearRegression()
model.fit(data_X,data_y)

print(model.predict(data_X[:4,:]))
print(data_y[:4])

#使用生成线性回归的数据集,最后的数据集结果用散点图表示
X,y=datasets.make_regression(n_samples=100,n_features=1,n_targets=1,noise=10)   #n_samples表示样本数目,n_features特征的数目  n_tragets  noise噪音
plt.scatter(X,y)
plt.show()
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值