python怎样定义zscore_为什么在Pandas数据帧中使用Zscore进行规范化会生成NaN列？

最新推荐文章于 2024-07-02 21:40:31 发布

彭哲夫

最新推荐文章于 2024-07-02 21:40:31 发布

阅读量1.5k

点赞数

文章标签： python怎样定义zscore

本文链接：https://blog.csdn.net/weixin_33586063/article/details/112048699

版权

在使用scipy的zscore对Pandas DataFrame进行数据规范化时，发现某些列（如mta_tax和trip_type）变为NaN。代码中已排除了异常值，但问题仍然存在。可能是由于数据类型问题或者缺失值处理导致的。

摘要由CSDN通过智能技术生成

我使用scipy中的Z-score对数据集进行规范化，如下所示：import numpy as np

import pandas as pd

from scipy import stats

from scipy.stats import zscore

df = pd.DataFrame(pd.read_csv('dataset.csv', sep=','))

df = df.dropna(how='any') # drop nan entries

df = df[(np.abs(stats.zscore(df)) < 3).all(axis=1)] # remove outliers

print(df.describe())

df = df.apply(zscore) # Normalization

print(df.describe())

但是，我得到一些列被更改为NaN，特别是mta_tax和trip_type，如下所示，但是它们在应用Z-score规范化之前是数值的。这是我的代码中的一个bug还是Z-score可以生成NaN？

标准化之前：VendorID RatecodeID PULocationID DOLocationID \

count 1.055286e+07 1.055286e+07 1.055286e+07 1.055286e+07

mean 1.794324e+00 1.000000e+00 1.106734e+02 1.285285e+02

std 4.041947e-01 4.353414e-04 7.541486e+01 7.7291

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

彭哲夫

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

centOS6.7下gcc-4.4.7的安装部件

12-17

centOS6.7下gcc-4.4.7的安装部件。满足各种需求 centOS6.7下gcc-4.4.7的安装部件。满足各种需求 centOS6.7下gcc-4.4.7的安装部件。满足各种需求 centOS6.7下gcc-4.4.7的安装部件。满足各种需求

keras读取网络某一层的参数

qq_17743307的博客

09-20

1086

yolo_model = load_model("model_data/yolo.h5") yolo_model.summary() #获得某一层的权重和偏置 yolo_model.get_layer('conv2d_1').get_weights() 读取抹一层的参数 [array([[[[ -5.85820116e-02, -9.19402122e-01, 1.08703125e+00, -4.77864332e-02, 6.07924052e-02, -4.887

参与评论您还未登录，请先登录后发表或查看评论

【python】pandas数据清洗(三)：Z-Score 方法识别异常值

MAOZI8的博客

07-02

1028

Z-Score，又称为标准分数，是统计学中用于表示一个值与数据集均值之间的偏差程度的一种度量。具体而言，Z-Score 是一个观测值减去均值后，再除以标准差的结果。Z-Score 可以告诉我们这个观测值在标准正态分布中处于什么位置。数学表达式如下：( X ) 表示单个观测值，( \mu ) 表示观测值所在样本的均值，( \sigma ) 表示样本的标准差。

centos 傻瓜式安装/升级GCC 4.7

magicyang87的专栏

09-12

8690

http://www.cnblogs.com/linbc/archive/2012/08/03/2621169.html 无论出于对C++ 0X或是OPENMP等的支持，使用最新的GCC都应是可能情况下的最好选择。网上其他的教程都过于繁琐或者因为太老而无法实行，这篇文章主要是简化了GCC依赖库的步骤。我是在GCC 4.1.2上升级，CPU E5606大约用了两个小时，可以参考上面的文章或者直接用

CVX学习1

qq_32591057的博客

02-12

1643

‎CVX：用于规范凸编程的 Matlab 软件‎ ‎CVX是一种基于Matlab的凸优化建模系统。CVX 将 Matlab 转换为建模语言，允许使用标准 Matlab 表达式语法指定约束和目标。例如，请考虑以下凸优化模型：‎ ‎下面的代码段生成并求解此模型的随机实例：‎ m = 20; n = 10; p = 4; A = randn(m,n); b = randn(m,1); C = randn(p,n); d = randn(p,1); e = rand; cvx_begin va

64 位CentOS 6.7 安装gcc V4.4.7的操作步骤以及配套所需的rpm格式安装包

fengyunshijie2015的博客

01-19

7331

64 位CentOS 6.7 安装gcc V4.4.7的操作步骤以及配套所需的rpm格式安装包，是纯属技术描述，只为真实的记录自己走过的每一步，如果能为大家带来一点点的方便就已经满足了，不全面、不完善之处请大家多多包涵。

python-normalize-zscore:使用z分数进行数据归一化

04-30

#Sintax print ( zscore ( data )) ＃输入[[2104. 3.] [1600. 3.] [2400. 3.] [1416. 2.] [3000. 4.] [1985. 4.] [1534. 3.] [1427. 3.] [1380. 3.] [1494. 3.]]＃输出[[ 0.5313 -0.1857] [-0.4605 -0.1857] [ 1....

异常值检测_入门_python_python数据分析_数据异常分析_异常值_

10-03

在Python中，我们可以使用`scipy.stats.zscore`和`numpy.percentile`函数实现这些方法。 4. **机器学习方法**：一些机器学习算法，如Isolation Forest和Local Outlier Factor（LOF），可以用来识别异常值。这些方法...

python数据归一化及三种方法详解

09-18

数据归一化是数据分析中的重要步骤，特别是在处理多元数据集时，确保各个特征在同一尺度上是非常必要的。Python 提供了多种归一化方法，这里主要介绍三种：min-max 标准化、Z-score 标准化以及对数归一化。 1. **...

2000-2023年上市公司财务困境数据（ZScore模型）（含原始数据+计算结果）.xlsx

热门推荐

sugar_hang的博客

09-17

2万+

一.安装gcc编译器 1.使用yum安装gcc（需要获取管理员权限） su root //进入管理员命令 yum -y install gcc gcc-c++ kernel-devel //安装gcc、c++编译器以及内核文件 2.验证安装是否成功 gcc -v 二.gcc编译器的使用 1.在终端创建c++文件 touch project1.c 2.打开c文件 vim project1.c 3.c语言代码编辑并保存当输入c语言程序的时候，可能会发现在打开的.c文件中无法进行插入编辑...

CVX学习笔记

qq_42372198的博客

11-04

1万+

CVX介绍适用于解决凸函数问题。其支持多标准问题模型，包括线性和二次程序。二阶圆锥程序和半正定型程序，同时也可以解决不可微函数的问题。入门例子最小二乘法找x ∈ Rn，使得|| Ax - b ||2 最小，A ∈ Rm*n ( m ≥ n and Rank( A) = n ),可知此式子的解为x =(ATA)-1ATb m = 16; n = 8; A = randn(m,n); //生成了一个16*8的矩阵 b = randn(m,1); //b为

Linux(centos) gcc/g++升级从版本4.4.7到4.8.5

imiss的博客

03-10

1776

1、首先进入目录目录/usr/local/src，下载安装包 wget http://ftp.gnu.org/gnu/gcc/gcc-4.8.5/gcc-4.8.5.tar.gz 然后解压压缩包 tar -zxvf gcc-4.8.5.tar.gz 2、进入解压缩的目录cd gcc-4.8.5，下载一些必备的依赖程序 ./contrib/download_prerequisi...

cvx使用例程 matlab_MATLAB基础教程台大郭彦甫学习笔记4

weixin_35782943的博客

01-05

1017

today:1.varibles:string,structure,cell 今天进阶的varibles2.data accessmatlab data types数据类型最常用的是 numeric 下面是 double single integer还有 logical,一般在 condition中varible type conversion类型转换在matlab中当作函数使用。int...

完整ASCII字符表

zmq5411的专栏

03-21

5995

ASCII（美国信息交换标准编码）表字符ASCII代码字符ASCII代码字符ASCII代码二进制十进制十六进制二进制十进制十六进制二进制十进制十六进制回车ESC空格！"#$0001101001101101000000100001010001001000110100100132732333435360D1B2021222324 ?@ABCDE0111111100000010000011000010100001110001001000101636465666768693

python中min-max和zscore数据标准化的代码是什么样的？

07-16

在中，您可以使用scikit-learn库来进行Min-Max和Z-Score数据标准化。以下是示例代码： 1. Min-Max 标准化： ```python from sklearn.preprocessing import MinMaxScaler import pandas as pd # 创建一个示例数据...