pd.read_csv加载数据缺失值处理na_values与数据为空的填充。

旺仔的算法coding笔记

已于 2022-03-24 12:41:27 修改

阅读量8.9k

点赞数 1

分类专栏：特征工程与数据分析文章标签： python

于 2021-03-28 22:12:26 首次发布

本文链接：https://blog.csdn.net/wangwangstone/article/details/115288664

版权

特征工程与数据分析专栏收录该内容

31 篇文章

订阅专栏

该博客介绍了如何在使用pandas读取CSV文件时指定缺失值，并解决因存在NaN导致的数据转换错误。通过设置`na_values`参数，可以将特定值（如'-1'）标记为缺失值进行处理。当尝试将包含缺失值的列转换为整数类型时，会出现`Cannot convert non-finite values (NA or inf) to integer`的错误。解决方法是先使用`fillna`函数填充缺失值，例如用100替换NaN，然后再进行数据类型转换。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

指定缺失值的填充值

利用pd.read_csv读取文件加载时，默认会将文件中缺失的数据自动填充为NaN，如果想指定哪些值作为缺失数据来处理，则可以利用里面的na_values参数。

import pandas as pd
data=pd.read_csv("./selectRefer10PerClass0317.txt",sep='\t')

data.head()

指定字符串'-1'也做为缺失值来处理

import pandas as pd
data=pd.read_csv("./selectRefer10PerClass0317.txt",sep='\t',na_values='-1')

data.head()

数据为空的转换错误

问题：使用data_df['col2'].astype(int)出现Cannot convert non-finite values (NA or inf) to integer

原因分析：查看数据后发现是由于col2列中有些记录是空的，为值Nan，所以没法转换成int。

解决方案：

将此列的空值以指定值去填充 fillna函数。如以100

data_df['col2']=data_df['col2'].fillna(100)

data_df['col2'].astype(int)

data_df=pd.DataFrame([[1,2,3],[None,None,2]])
print(data_df)
# data_df[1].astype(int) # 报错  Cannot convert non-finite values (NA or inf) 
data_df[1]=data_df[1].fillna(100)
data_df[1].astype(int) # 不在报错
print(data_df)

鸣谢与参考：

(20200410已解决)ValueError: Cannot convert non-finite values (NA or inf) to integer_quantLearner的博客-CSDN博客