2021-05-06

快速可视化

借助图形化的手段,形象地显示数据和信息。

 

 

介绍

 

快速可视化工具能帮助你方便的了解特征之间的相关性,特征的分布,和对模型的性能进行评估等。

 

功能介绍

 

下面展示各种可视化图形,包括皮尔森热力图,混淆矩阵等。

 

皮尔森热力图

 

皮尔森热力图显示特征之间的相关性,它使用皮尔森相关系数来表示相关性。该系数是用来反映两个变量线性相关程度的统计量,使用公式:

Cov(X,Y)是协方差,分母分别为变量X的标准差,变量Y的标准差。

皮尔森相关系数在[-1, 1],越接近1或-1,表明正/反线性关系越强,为0则表示两个变量间没有线性关系,下面我们可以根据方块的颜色来判断相关性强弱。

 

在此图表中,我们看到 temp 和 feellike 具有强烈的相关性。通过查看皮尔森热力图可以进行特征的选择,比如:season 和 month 具有很强的相关性,可以理解为它们基本提供相同的信息,所以我们可以去除season或者month 特征。

 

混淆矩阵

 

混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,常用于分类问题,通过混淆矩阵进行模型的评估,进行预测值和真实值的比较。混淆矩阵的每一列代表了预测类别,每一列的总数表示预测为该类别的数据的数目;每一行代表了数据的真

实归属类别 ,每一行的数据总数表示该类别的数据实例的数目。

 

 

通过上图我们可以看出,一共有150个样本数据,其中0,1,2类各为50个。

第一行说明为0类的50个样本全都预测正确。

第二行说明有45个属于第一类的样本被正确预测,有5个被错误预测为第二类。

第三行说明有49个属于第二类的样本被正确预测,有1个被错误预测为第一类。

 

正则化参数选择

 

机器学习中,如果参数过多,模型过于复杂,容易造成过拟合(overfit)。即模型在训练样本数据上表现的很好,但在实际测试样本上表现的较差,不具备良好的泛化能力。为了避免过拟合,最常用的一种方法是使用使用正则化。正则化的目的是限制参数过多或者过大,避免模型更加复杂。例如,使用多项式模型,如果使用 10 阶多项式,模型可能过于复杂,容易发生过拟合。所以,为了防止过拟合,我们可以将其高阶部分的权重 w 限制为 0,这样,就相当于从高阶的形式转换为低阶。

 

由上图可以看出alpha取3.612时,误差最小。所以我们取正则化参数alpha为3.612来获得更好的模型性能。

 

数据不平衡

 

在学术研究与教学中,很多算法都有一个基本假设,那就是数据分布是均匀的。当我们把这些算法直接应用于实际数据时,大多数情况下都无法取得理想的结果。因为实际数据往往分布得很不均匀,都会存在“长尾现象”。解决这一问题的基本思路是让正负样本在训练过程中拥有相同的话语权,比如利用采样与加权等方法。

 

由上图可知:三类样本的数目趋于平衡。如果数据不平衡,那么我们需要采取过采样,欠采样和阈值调整等方法来调整样本数据。

 

分类问题的模型评估

 

对模型的泛化性能进行评估,不仅需要有效可行的实验估计方法,还需要有衡量模型泛化能力的评价标准,这就是性能度量。在分类问题通常使用精确率,召回率,准确率还有F1等指标。

 

上图可以看出:

对于2类样本,预测为2类的样本,有81.8%实际为2类。

对于1类样本,实际为1类样本中,有86.7%预测为1类。

 

特征重要性评估


在特征的选择过程中,如果学习器是树模型的话,可以根据特征的重要性来筛选有效的特征,特征重要性是通过对数据集中的每个特征进行计算,并进行排序得到。在单个决策树中通过每个特征分裂点改进性能度量的量来计算属性重要性,由节点负责加权和记录次数。也就说一个特征对分裂点改进性能度量越大(越靠近根节点),权值越大;被越多提升树所选择,特征越重要。

 

 

由上图可知:特征3具有最高的重要性,特征0具有最低的重要性。

 

联合图

 

联合图包括散点图和直方图,散点图是指在回归分析中,数据点在直角坐标系平面上的分布图,散点图表示因变量随自变量变化的大致趋势,据此可以分析特征之间的相关性。它既能用来呈现数据点的分布,表现两个特征的相关性,也能像折线图一样表示时间推移下的发展趋势。

直方图的优点是能够快速了解每个特征分布情况。直方图将同一特征的数据分到相同的柱体中,并统计每个柱体的数据量。根据直方图的形状,可以快速了解特征是高斯分布、倾斜分布还是指数分布等。通过直方图还可以观察到数据中的异常值。

由上图可以看出特征 temp 和 feelslike 具有很强的相关性,同时也显示出两个特征的直方图分布。可以看出 temp在0.6-0.9 之间出现异常值,可以通过去除异常值以提高模型的性能。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值