【SKLEARN】StandardScaler()及其fit_transform()方法

1.StandardScaler()函数,其官方解释如下:

中文翻译为:

通过删除平均值并缩放到单位方差来标准化特征。

样本x的标准分数计算如下:

z=(x-u)/s

其中,u是训练样本的平均值,如果_mean=False,则为零;如果_std=False,则s是训练样本的标准偏差或一。

通过计算训练集中样本的相关统计信息,对每个特征分别进行定心和缩放。然后存储平均值和标准偏差,以便使用transform在以后的数据上使用。

数据集的标准化是许多机器学习估计器的共同要求:如果单个特征或多或少不像标准正态分布数据(例如,均值和单位方差为0的高斯分布),那么这些估计器可能表现不好。

例如,学习算法的目标函数中使用的许多元素(如支持向量机的RBF核或线性模型的L1和L2正则化器)假设所有特征都以0为中心,并且具有相同顺序的方差。如果一个特征的方差比其他特征的方差大几个数量级,它可能会支配目标函数,使估计器无法像预期的那样正确地从其他特征中学习。

此定标器还可以通过传递_mean=False来应用于稀疏CSR或CSC矩阵,以避免破坏数据的稀疏结构。

copy:如果为False,请尝试避免复制,而改为进行就地缩放。

with_mean:如果为True,则在缩放之前将数据中心化。这在稀疏矩阵上不起作用(并且会引发异常),因为将它们居中需要构建一个密集矩阵,在常见用例中,该矩阵可能太大而无法放入内存。

with_std:如果为True,则将数据缩放为单位方差(或等效的单位标准偏差)。

 2.fit_transform()方法

先计算出数据的均值和方差,并根据此将数据标准化并且可以自动对文档进行分词与停用词的计算,最后输出每个单词的次品,输出结果为一个稀疏矩阵,如果要查看矩阵的具体内容,可以使用toarray()方法。

  • 1
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值