【Pandas驯化-10】一文搞懂Pandas中一列混合多种数据类型to_numeric、select_dtypes处理

本文链接：https://blog.csdn.net/lov1993/article/details/139835518

【Pandas驯化-10】一文搞懂Pandas中一列混合多种数据类型to_numeric、select_dtypes处理

本次修炼方法请往下查看
在这里插入图片描述

🌈 欢迎莅临我的个人主页 👈这里是我工作、学习、实践 IT领域、真诚分享 踩坑集合，智慧小天地！
🎇 相关内容文档获取微信公众号
🎇 相关内容视频讲解 B站

🎓 博主简介：AI算法驯化师，混迹多个大厂搜索、推荐、广告、数据分析、数据挖掘岗位 个人申请专利40+，熟练掌握机器、深度学习等各类应用算法原理和项目实战经验。

🔧 技术专长：在机器学习、搜索、广告、推荐、CV、NLP、多模态、数据分析等算法相关领域有丰富的项目实战经验。已累计为求职、科研、学习等需求提供近千次有偿|无偿定制化服务，助力多位小伙伴在学习、求职、工作上少走弯路、提高效率，近一年好评率100% 。

📝 博客风采：积极分享关于机器学习、深度学习、数据分析、NLP、PyTorch、Python、Linux、工作、项目总结相关的实用内容。

下滑查看解决方法

🎯 1. 基本介绍

在实际工作中，由于数据采集的失误或者人工处理的时候不当，会造成原始数据类型经常会遇到一列数值型数据中，混杂一些字符串类型的数据，当我们要对这列数据进行统计运算时，就会报相应的错误，当遇到这样问题的时候，如果我们是在进行数据分析，需要找出具体是哪些行存在这样的问题，从而去修改原始数据的采集，而在进行数据建模或者特征提取时，需要对其进行删除或者采用均值数据进行修改，具体的骚操作方法如下：
pd.to_numeric 函数尝试将输入的数据转换为数值类型。当 errors='coerce' 参数被设置时，任何不能被转换为数值的数据将被赋值为 NaN（Not a Number），这是一种特殊的浮点数值，用于表示数据缺失。
pd.isnull 函数用于识别数据中的缺失值，并返回一个布尔类型的 Series 或 DataFrame，其中的 True 表示对应的数据是 NaN。

💡 2. 使用方法

2.1 pd.to_numeric函数使用

使用pd.to_numeric函数将 clos1 列中的数据尝试转换为数值型，非数值型数据将被转换为 NaN。具体的代码如下所示：

import pandas as pd

df = pd.DataFrame({
    'clos1': [1, 2, '3', 'four', 5, None, '7.5', 'eight']
})

   clos1
0      1
1      2
2      3
3   four
4      5
5    None
6    7.5
7   eight

df['clos1'] = pd.to_numeric(df['clos1'], errors='coerce')

    clos1
0    1.0
1    2.0
2    3.0
3    NaN
4    5.0
5    NaN
6    7.5
7    NaN

2.2 pd.isnull函数过滤

通过上述的函数可以将不同类型的数据赋值为空，接着我们可以使用isnull函数对其进行过滤，具体为：

nan_mask = pd.isnull(df['clos1'])

print(nan_mask)

0    False
1    False
2    False
3     True
4    False
5     True
6    False
7     True
Name: clos1, dtype: bool

2.3 提取非数值型数据

通过布尔索引，我们可以提取出原始数据中那些被转换为 NaN 的非数值型数据。具体的用法如下所示：

non_numeric_data = df[nan_mask]['clos1'].unique()
print(non_numeric_data)

array(['four', None, 'eight'], dtype=object)

🚀 3. 高阶用法

征工程中经常需要对数据类型进行转换pandas中astype可以为你解忧，在nlp比赛中各列的数据差异比较大时，需要选择所需的数据类型则可以使用select_dtypes，具体用法为：

# 如果col1列为数值的字符串类型，可以用astype(float32)转为浮点型 
df["col1"] = df["col1"].astype(float32) 
# 如果col不是字符串类型，但是想使用字符串的运算，可以用astype(str)转为字符串类型 df["col1"] = df["col1"].astype(str) 
# 选择各列数据类型为数值型的数据,以及删除某个类型的数据 
need_type = ['int16', 'int32', 'int64', 'float16', 'float32', 'float64'] df = df.select_dtypes(indclude=need_type) 
delete_type = ['int'] 
df= df.select_dtype(exclude=delete_type)