02 sklearn 基础操作笔记
生成分类数据集或者聚类数据集–make_blobs
一、make_blobs()的参数
make_blobs() 是 sklearn.datasets中的一个函数
主要是产生聚类数据集
1.n_features表示每一个样本有多少特征值
2.n_samples表示样本的个数
3.centers是聚类中心点的个数,可以理解为label的种类数
4.random_state是随机种子,可以固定生成的数据
5.cluster_std设置每个类别的方差
#导入数据生成器
from sklearn.datasets import make_blobs
data,label = make_blobs(n_features=2,n_samples=100,centers=3,random_state=3,cluster_std=[0.8,2,5])
#生成样本数为200,分类为2的数据集
data = make_blobs(n_samples = 200,centers = 2,random_state = 8)
print(data)
#分离自变量与因变量
X,y = data
#数据可视化
import matplotlib.pyplot as plt
%matplotlib inline
plt.scatter(X[:,0],X[:,1],c = y,cmap = plt.cm.spring,edgecolors = 'k')
二、sklearn.preprocessing.MinMaxScaler和sklearn.preprocessing.MaxAbsScaler的区别
1.class sklearn.preprocessing.MinMaxScaler(feature_range = (0,1),copy = True)
将数据缩放至指定的范围内
2.class sklearn.preprocessing.MaxAbsScaler(copy = True)
将数据的最大值缩放至1
#导入iris鸢尾花数据集
from sklearn.datasets import load_iris
iris = load_iris()
#导入boston数据集
from sklearn.datasets import load_boston
boston = load_boston()
#将boston数据集变换到(10,100)的范围内
from sklearn.preprocessing import MinMaxScaler
mms = MinMaxScaler(feature_range = (10,100))
mms.fit(boston.data)
boston_mms = mms.transform(boston.data)
boston.data
boston_mms.data
mms2 = MinMaxScaler(feature_range = (10,100),copy=False)
mms2.fit_transform(boston.data)
from sklearn.preprocessing import MaxAbsScaler
mas = MaxAbsScaler()
mas.fit_transform(boston.data)
boston.data