sklearn-day4

1 概述

1.1 从什么叫“维度”说开来

对于数组和Series来说,维度就是功能shape返回的结果,shape中返回了几个数字,就是几维。
数组中的每一张表,都可以是一个特征矩阵或一个DataFrame,这些结构永远只有一张表,所以一定有行列,其中行是样本,列是特征。针对每一张表,维度指的是样本的数量或特征的数量,一般无特别说明,指的都是特征的数量。除了索引之外,一个特征是一维,两个特征是二维,n个特征是n维。

对图像来说,维度就是图像中特征向量的数量。特征向量可以理解为是坐标轴,一个特征向量定义一条直线,是一维,两个相互垂直的特征向量定义一个平面,即一个直角坐标系,就是二维,三个相互垂直的特征向量定义一个空间,即一个立体直角坐标系,就是三维。三个以上的特征向量相互垂直,定义人眼无法看见,也无法想象的高维空间。

降维算法中的”降维“,指的是降低特征矩阵中特征的数量。上周的课中我们说过,降维的目的是为了让算法运算更快,效果更好,但其实还有另一种需求:数据可视化。从上面的图我们其实可以看得出,图像和特征矩阵的维度是可以相互对应的,即一个特征对应一个特征向量,对应一条坐标轴。所以,三维及以下的特征矩阵,是可以被可视化的,这可以帮助我们很快地理解数据的分布,而三维以上特征矩阵的则不能被可视化,数据的性质也就比较难理解。

1.2 sklearn中的降维算法

2 PCA与SVD

在这里插入图片描述

2.1 降维究竟是怎样实现?

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.2 重要参数n_components

n_components是我们降维后需要的维度,即降维后需要保留的特征数量,降维流程中第二步里需要确认的k值,一般输入[0, min(X.shape)]范围中的整数。一说到K,大家可能都会想到,类似于KNN中的K和随机森林中的n_estimators,这是一个需要我们人为去确认的超参数,并且我们设定的数字会影响到模型的表现。如果留下的特征太多,就达不到降维的效果,如果留下的特征太少,那新特征向量可能无法容纳原始数据集中的大部分信息,因此,n_components既不能太大也不能太小。那怎么办呢?
可以先从我们的降维目标说起:如果我们希望可视化一组数据来观察数据分布,我们往往将数据降到三维以下,很多时候是二维,即n_components的取值为2。

  • 2.2.2 最大似然估计自选超参数
    除了输入整数,n_components还有哪些选择呢?之前我们提到过,矩阵分解的理论发展在业界独树一帜,勤奋智慧的数学大神Minka, T.P.在麻省理工学院媒体实验室做研究时找出了让PCA用最大似然估计(maximum likelihoodestimation)自选超参数的方法,输入“mle”作为n_components的参数输入,就可以调用这种方法
  • 2.2.3 按信息量占比选超参数
    输入[0,1]之间的浮点数,并且让参数svd_solver ==‘full’,表示希望降维后的总解释性方差占比大于n_components指定的百分比,即是说,希望保留百分之多少的信息量。比如说,如果我们希望保留97%的信息量,就可以输入n_components = 0.97,PCA会自动选出能够让保留的信息量超过97%的特征数量

2.3 PCA中的SVD

PCA和SVD涉及了大量的矩阵计算,两者都是运算量很大的模型,但其实,SVD有一种惊人的数学性质,即是它可以跳过数学神秘的宇宙,不计算协方差矩阵,直接找出一个新特征向量组成的n维空间,而这个n维空间就是奇异值分解后的右矩阵 (所以一开始在讲解降维过程时,我们说”生成新特征向量组成的空间V",并非巧合,而是特指奇异值分解中的矩阵 )。
在这里插入图片描述

2.4 重要接口inverse_transform

在这里插入图片描述

sklearn中的GRNN(Generalized Regression Neural Network)是一种神经网络模型,用于进行回归分析。GRNN是一种基于径向基函数(RBF)的神经网络模型,具有强大的非线性拟合能力。它可以根据给定的输入特征,预测对应的输出值。 GRNN的特点是通过计算输入值与训练数据集中每个样本的距离,使用径向基函数来进行非线性映射。在训练阶段,GRNN将训练数据集中的每个样本作为模型中心点,并根据输入值与中心点之间的距离,计算出相应的权重。在预测阶段,GRNN使用这些权重来计算输出值。 GRNN的优点是在训练阶段没有参数需要调整,而且对噪声具有较强的鲁棒性。它适用于处理非线性问题,并且在拟合非线性函数时表现出色。 因此,如果你的问题是非线性的,并且有足够的训练数据,你可以考虑使用sklearn中的GRNN模型进行预测分析。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [MATLAB学习笔记_Day07神经网络、决策树和随机森林](https://blog.csdn.net/weixin_45751396/article/details/119974532)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值