SciKit-Learn 入门学习笔记（2）

最新推荐文章于 2023-05-12 11:29:12 发布

StriveQueen

最新推荐文章于 2023-05-12 11:29:12 发布

阅读量418

点赞数

分类专栏： Python 机器学习文章标签： python 机器学习 sklearn SciKit-Learn

本文链接：https://blog.csdn.net/strivequeen/article/details/113761231

版权

1 正规化 Normalization
- 1.1 数据标准化
- 1.2 数据标准化对机器学习成效的影响
2 检验神经网络 (Evaluation)
3 交叉验证（Cross-validation）
4 保存模型
- 4.1 使用 pickle 保存
- 4.2 使用 joblib 保存

本文为 SciKit-Learn 入门进阶篇，主要介绍了一些高级用法，若对sklearn还不够了解，可以先看看：SciKit-Learn 入门学习笔记（1）

1 正规化 Normalization

由于资料的偏差与跨度会影响机器学习的成效，因此**正规化(标准化)**数据可以提升机器学习的成效。

1.1 数据标准化

from sklearn import preprocessing #标准化数据模块
import numpy as np

#建立Array
a = np.array([[10, 2.7, 3.6],
              [-100, 5, -2],
              [120, 20, 40]], dtype=np.float64)

#将normalized后的a打印出
print(preprocessing.scale(a))
"""
 [[ 0.         -0.85170713 -0.55138018]
  [-1.22474487 -0.55187146 -0.852133  ]
  [ 1.22474487  1.40357859  1.40351318]]
 """

1.2 数据标准化对机器学习成效的影响

加载模块:

# 标准化数据模块
from sklearn import preprocessing 
import numpy as np

# 将资料分割成train与test的模块
from sklearn.model_selection import train_test_split

# 生成适合做classification资料的模块
from sklearn.datasets.samples_generator import make_classification 

# Support Vector Machine中的Support Vector Classifier
from sklearn.svm import SVC 

# 可视化数据的模块
import matplotlib.pyplot as plt

生成适合做Classification数据:

#生成具有2种属性的300笔数据
X, y = make_classification(
    n_samples=300, n_features=2,
    n_redundant=0, n_informative=2, 
    random_state=22, n_clusters_per_class=1, 
    scale=100)

#可视化数据
plt.scatter(X[:, 0], X[:, 1], c=y)
plt.show()

在这里插入图片描述
数据标准化前:

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
clf = SVC()
clf.fit(X_train, y_train)
print(clf.score(X_test, y_test))  # 标准化前的预测准确率
# 0.477777777778