【Python】机器学习模型可视化:基于sklearn和Matplotlib的库​scikit-plot

scikit-learn (sklearn)是Python环境下常见的机器学习库,包含了常见的分类、回归和聚类算法。在训练模型之后,常见的操作是对模型进行可视化,则需要使用Matplotlib进行展示。

scikit-plot是一个基于sklearnMatplotlib的库,主要的功能是对训练好的模型进行可视化,功能比较简单易懂。

https://scikit-plot.readthedocs.io

pip install scikit-plot

功能1:评估指标可视化

  • scikitplot.metrics.plot_confusion_matrix快速展示模型预测结果和标签计算得到的混淆矩阵。

    965a5281370e4b4ce54797fa39425c22.png

import scikitplot as skplt
rf = RandomForestClassifier()
rf = rf.fit(X_train, y_train)
y_pred = rf.predict(X_test)

skplt.metrics.plot_confusion_matrix(y_test, y_pred, normalize=True)
plt.show()
  • scikitplot.metrics.plot_roc快速展示模型预测的每个类别的ROC曲线。

    40a95a1f9740f8476c13faaab438cc3a.png

import scikitplot as skplt
nb = GaussianNB()
nb = nb.fit(X_train, y_train)
y_probas = nb.predict_proba(X_test)

skplt.metrics.plot_roc(y_test, y_probas)
plt.show()
  • scikitplot.metrics.plot_ks_statistic从标签和分数/概率生成 KS 统计图。

    48f3a065d99687adc306377f3d66ef4a.png

import scikitplot as skplt
lr = LogisticRegression()
lr = lr.fit(X_train, y_train)
y_probas = lr.predict_proba(X_test)

skplt.metrics.plot_ks_statistic(y_test, y_probas)
plt.show()
  • scikitplot.metrics.plot_precision_recall从标签和概率生成PR曲线

    1b9d21fb75dd6d1f4a8651338935a62b.png

import scikitplot as skplt
nb = GaussianNB()
nb.fit(X_train, y_train)
y_probas = nb.predict_proba(X_test)

skplt.metrics.plot_precision_recall(y_test, y_probas)
plt.show()
  • scikitplot.metrics.plot_silhouette对聚类结果进行silhouette analysis分析

    0ed843475fdaaf10f63e3ab0c0d435dd.png

import scikitplot as skplt
kmeans = KMeans(n_clusters=4, random_state=1)
cluster_labels = kmeans.fit_predict(X)

skplt.metrics.plot_silhouette(X, cluster_labels)
plt.show()
  • scikitplot.metrics.plot_calibration_curve绘制分类器的矫正曲线

    454301d766a21febd3eecad2da9948a9.png

import scikitplot as skplt
rf = RandomForestClassifier()
lr = LogisticRegression()
nb = GaussianNB()
svm = LinearSVC()
rf_probas = rf.fit(X_train, y_train).predict_proba(X_test)
lr_probas = lr.fit(X_train, y_train).predict_proba(X_test)
nb_probas = nb.fit(X_train, y_train).predict_proba(X_test)
svm_scores = svm.fit(X_train, y_train).decision_function(X_test)
probas_list = [rf_probas, lr_probas, nb_probas, svm_scores]
clf_names = ['Random Forest', 'Logistic Regression',
              'Gaussian Naive Bayes', 'Support Vector Machine']

skplt.metrics.plot_calibration_curve(y_test,
                                      probas_list,
                                      clf_names)
plt.show()

功能2:模型可视化

  • scikitplot.estimators.plot_learning_curve生成不同训练样本下的训练和测试学习曲线图。

    14d9ae3f7f8208156aa15ab52efa6a96.png

import scikitplot as skplt
rf = RandomForestClassifier()

skplt.estimators.plot_learning_curve(rf, X, y)
plt.show()
  • scikitplot.estimators.plot_feature_importances可视化特征重要性。

    daa4c84d7c856258309ffdd164430db8.png

import scikitplot as skplt
rf = RandomForestClassifier()
rf.fit(X, y)

skplt.estimators.plot_feature_importances(
     rf, feature_names=['petal length', 'petal width',
                        'sepal length', 'sepal width'])
plt.show()

功能3:聚类可视化

scikitplot.cluster.plot_elbow_curve展示聚类的肘步图。

8e619bc24eec64ad9f47fa333f385896.png

import scikitplot as skplt
kmeans = KMeans(random_state=1)

skplt.cluster.plot_elbow_curve(kmeans, cluster_ranges=range(1, 30))
plt.show()

功能4:降维可视化

  • scikitplot.decomposition.plot_pca_component_variance绘制 PCA 分量的解释方差比。

import scikitplot as skplt
pca = PCA(random_state=1)
pca.fit(X)

skplt.decomposition.plot_pca_component_variance(pca)
>plt.show()

90f179e2ea2136507227f5568c00b791.png

  • scikitplot.decomposition.plot_pca_2d_projection绘制PCA降维之后的散点图。

import scikitplot as skplt
pca = PCA(random_state=1)
pca.fit(X)

skplt.decomposition.plot_pca_2d_projection(pca, X, y)
plt.show()

5279086f495988417e4693956217ee01.png

 
 

b763b28a4f2a9af256c79376800eeba5.jpeg

 
 
 
 
 
 
 
 
往期精彩回顾




适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑机器学习交流qq群955171419,加入微信群请扫码
很高兴回答您的问题!本文将重点介绍如何使用tensorflow和sklearn实现线性回归,并比较两种方法的优缺点。 一、线性回归介绍 线性回归是一种基本的机器学习算法,用于预测一个连续的数值。它是一种监督学习算法,需要有一个训练集来训练模型。在线性回归中,我们假设目标变量与自变量之间是线性关系,因此我们尝试找到一条最佳拟合直线来描述它们之间的关系。 二、使用tensorflow实现线性回归 TensorFlow是一个由Google开发的开源机器学习框架,它具有高效、灵活和易于使用的特点,广泛应用于各个领域。下面我们将介绍如何使用TensorFlow实现线性回归。 1、导入 ``` import tensorflow as tf import numpy as np import matplotlib.pyplot as plt ``` 2、生成数据 为了演示线性回归,我们需要生成一些数据。我们将生成一个简单的数据集,其中有100个随机数,分别作为X和Y。 ``` X = np.random.rand(100).astype(np.float32) Y = X * 0.1 + 0.3 ``` 3、定义模型 在TensorFlow中,我们需要定义一个计算图来描述我们的模型。在本例中,我们将使用一个简单的线性模型 y = wx + b,其中w和b是我们需要学习的参数。 ``` w = tf.Variable(tf.random_uniform([1], -1.0, 1.0)) b = tf.Variable(tf.zeros([1])) y = w * X + b ``` 4、定义损失函数 我们需要定义一个损失函数来衡量模型的性能。在本例中,我们将使用均方误差作为损失函数。 ``` loss = tf.reduce_mean(tf.square(y - Y)) ``` 5、定义优化器 我们需要定义一个优化器来最小化损失函数。在本例中,我们将使用梯度下降优化器。 ``` optimizer = tf.train.GradientDescentOptimizer(0.5) train = optimizer.minimize(loss) ``` 6、训练模型 我们需要训练模型来学习参数w和b。在本例中,我们将使用1000次迭代来训练模型。 ``` init = tf.global_variables_initializer() sess = tf.Session() sess.run(init) for step in range(1000): sess.run(train) if step % 100 == 0: print(step, sess.run(w), sess.run(b)) ``` 7、可视化结果 我们可以使用matplotlib可视化模型的结果。 ``` plt.plot(X, Y, 'ro', label='Original data') plt.plot(X, sess.run(w) * X + sess.run(b), label='Fitted line') plt.legend() plt.show() ``` 三、使用sklearn实现线性回归 scikit-learn是一个流行的Python机器学习,提供了许多常用的算法和工具。现在我们将介绍如何使用scikit-learn实现线性回归。 1、导入 ``` import numpy as np import matplotlib.pyplot as plt from sklearn.linear_model import LinearRegression ``` 2、生成数据 我们使用与上面相同的数据集。 ``` X = np.random.rand(100, 1) Y = X * 0.1 + 0.3 ``` 3、定义模型scikit-learn中,我们需要实例化一个线性回归模型。 ``` model = LinearRegression() ``` 4、训练模型 我们可以使用fit()方法来训练模型。 ``` model.fit(X, Y) ``` 5、可视化结果 我们可以使用matplotlib可视化模型的结果。 ``` plt.plot(X, Y, 'ro', label='Original data') plt.plot(X, model.predict(X), label='Fitted line') plt.legend() plt.show() ``` 四、对比两种方法的优缺点 使用TensorFlow实现线性回归的优点: 1. TensorFlow是一个灵活的框架,可以轻松地实现各种机器学习算法。 2. TensorFlow提供了高效的计算图实现,可以利用GPU进行加速。 3. TensorFlow具有良好的可视化工具,可以帮助我们更好地理解和调试模型。 使用TensorFlow实现线性回归的缺点: 1. TensorFlow需要对TensorFlow的基本原理有一定的了解,对初学者来说可能有一定的难度。 2. TensorFlow的语法相对较为复杂,需要花费一些时间来学习和理解。 3. TensorFlow需要编写大量的代码来实现模型,相对于scikit-learn可能稍微繁琐一些。 使用scikit-learn实现线性回归的优点: 1. scikit-learn是一个简单易用的Python机器学习,可以快速实现各种机器学习算法。 2. scikit-learn提供了大量的实用工具和函数,可以帮助我们更好地处理数据和调试模型。 3. scikit-learn的语法相对较为简单,对初学者来说比较友好。 使用scikit-learn实现线性回归的缺点: 1. scikit-learn的灵活性相对较低,不如TensorFlow那么灵活。 2. scikit-learn的计算效率可能比TensorFlow略低。 3. scikit-learn的可视化工具相对较少,不如TensorFlow那么强大。 以上就是使用TensorFlow和scikit-learn实现线性回归的方法和比较。希望对您有所帮助!
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值