pandas数据处理——消除空格

最新推荐文章于 2025-04-22 09:34:02 发布

是阿采哦

最新推荐文章于 2025-04-22 09:34:02 发布

阅读量7.4k

点赞数 2

分类专栏：数据处理文章标签：数据分析 python pandas

本文链接：https://blog.csdn.net/qq_41127332/article/details/113585871

版权

数据处理专栏收录该内容

5 篇文章

订阅专栏

在数据预处理时，因为人工采集数据的过程，经常有可能把空值和空格混在一起，一般也注意不到在本来为空的单元格里加入了空格。这就给做数据处理的人带来了麻烦，因为空值和空格都是代表的无数据，而pandas中Series的方法notnull()会把有空格的数据也纳入进来。一般这种情况采用的做法是，先将空格用NaN值替换，再进行空值填充。

源数据形式如下：

再看一下数据的行数及数据格式：

可以看到，对于data["call_result2"]这一列数据是有缺失的，我们先用nan值将空格处理了，再进行空值处理。

# 针对空格处理，用nan替换
import numpy as np
data['call_result2']=data['call_result2'].replace(r'^\s*$',np.nan,regex=True)

用一个大值进行空值填充：

data[['call_result2']]=data[['call_result2']].fillna(-9999)

处理后的数据情况：

由于data["call_result2"]这一列都是数值，但它的数据类型显示是object,再转一下数据类型：

data[['call_result2']]=data[['call_result2']].astype("int64")

最后的数据格式：

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

是阿采哦

关注关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

使用Python的Pandas库中的`strip()`函数来删除DataFrame中所有列名称中的空格字符。

CyberLynxX的博客

09-05

1155

在数据分析和处理中，经常会遇到需要清理数据列名称中的空格字符的情况。函数来删除DataFrame中所有列名称中的空格字符。这个简单的操作可以帮助我们清理数据并准确地处理列名称，使得后续的数据分析和处理更加方便和准确。现在，我们有一个包含三列的DataFrame，每一列的名称都包含了前导和尾部的空格字符。函数来删除空格字符。最后，我们将删除空格字符后的列名称赋值回DataFrame的列名称。函数来删除DataFrame中所有列名称中的空格字符。可以注意到，现在列名称中的空格字符已经被成功删除了。

python pandas消除空值和空格以及 Nan数据替换方法

09-20

今天小编就为大家分享一篇python pandas消除空值和空格以及 Nan数据替换方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

1 条评论您还未登录，请先登录后发表或查看评论

Pandas中如何去掉空格

weixin_44665327的博客

10-02

3万+

Pandas中如何去掉空格一、先创建一张数据表二、去空格操作1、按位置去空格一、先创建一张数据表 import pandas as pd a = pd.DataFrame([['1qw',' 2e rt ','3uio'],['6qw ','7ert',' 8u io']],columns=list('ABC')) print(a) 表格生成如下：从表格中只能看到字符串中间的空格，两侧的空格无法判断是否存在，因此我们可以用代码 print(a.values )来查看单元格中具

Python pandas清除字符串中间的空格

爱吃干脆面的小潘

07-13

5967

用python读取包含手机号的Excel表格文件时，由于有的手机号录入时不规范，数值中间有的存在空格，有的不存在空格，如下所示。为保证后续匹配工作顺利进行，对手机号进行格式转换，统一转换为浮点型。 df["手机号码"].astype(np.float) 不过执行该语句时报错，报错信息如下： ValueError: could not convert string to float: ‘130 1111 1112’ 由于手机号中间存在空格，系统将其默认为字符型，无法强制转换为浮点型。只有将中间的空格去除

Python pandas清除excel某列内容中字符串中间的空格

ducanwang的博客

02-03

1598

Python pandas清除excel某列内容中字符串中间的空格

Python玩转数据分析——数据准备（导入数据）

Raider_zreo的博客

09-15

679

数据分析总流程明确调查目的明确分析思路数据准备数据处理数据分析数据可视化生成报告导入数据 import pandas as pd 导入Excel数据 pd.read_excel(filepath, sheetname=0, header=0, skiprows=None, skip_footer=None, index_col=None, names=None) filepath：Ex...

pandas | 使用pandas进行数据处理——DataFrame篇

TechFlow的博客

07-09

1391

本文始发于个人公众号：TechFlow，原创不易，求个关注今天是pandas数据处理专题的第二篇文章，我们一起来聊聊pandas当中最重要的数据结构——DataFrame。上一篇文章当中我们介绍了Series的用法，也提到了Series相当于一个一维的数组，只是pandas为我们封装了许多方便好用的api。而DataFrame可以简单了理解成Series构成的dict，这样就将数据拼接成了二维的表格。并且为我们提供了许多表级别数据处理以及批量数据处理的接口，大大降低了数据处理的难度。创建DataF

Pandas系列学习教程——03 pandas数据查询

lzylzy66的博客

03-10

1320

随着人工智能的不断发展，数据分析这门技术也越来越重要，很多人都开启了学习数据分析，本文就介绍了pandas学习的基础内容。本章讲解的是Pandas系列学习教程中的第三章——pandas数据查询，主要介绍按数值、列表、区间、条件和函数方法进行查询。

pandas基础——文件读取与写入、基本数据结构、常用基本函数、排序、总结练习

12-21

在数据分析领域，pandas是一个不可或缺的工具，它提供了一系列高效且灵活的方法，使得处理和分析大规模数据变得简单。本文将详细介绍pandas的基础知识，包括文件的读取与写入、基本数据结构、常用函数以及排序。一...

Python pandas 读取文件——读取具有明显分隔符的数据

在到处之间找我

12-17

3万+

首先我们来列举一下 pandas 处理文件的函数1： pd.read_csv(filepath)：从 CSV 文件导入数据 pd.read_table(filepath)：从限定分隔符的文本文件导入数据 pd.read_excel(filepath)：从 Excel 文件导入数据 pd.read_sql(query, connection_object)：从 SQL 表 / 库导入数据 pd.r...

python字符串处理去掉符号加空格

08-11

# 1、去掉特殊符号".","","#"； # 2、去掉中间多余空格； # 3、去掉首尾空格； # 4、中文与英文间添加空格

Pandas数据分析全流程——从数据导入到结果输出，这一篇文章就够了

热门推荐

doiido的专栏

01-26

6万+

在使用python的时候经常会需要删除空格，以下几个函数可以极其方便的帮助我们去除空格：strip() lstrip() rstrip() 作用：去除字符串中的空格或指定字符

python pandas消除空值和空格以及 Nan数据替换

momo_mo520的博客

10-14

7663

在人工采集数据时，经常有可能把空值和空格混在一起，一般也注意不到在本来为空的单元格里加入了空格。这就给做数据处理的人带来了麻烦，因为空值和空格都是代表的无数据，而pandas中Series的方法notnull()会把有空格的数据也纳入进来，这样就不能完整地得到我们想要的数据了，这里给出一个简单的方法处理该问题。方法1：既然我们认为空值和空格都代表无数据，那么可以先得到这两种情况下的布尔...

pandas字符处理

03-24

### Pandas 字符串操作方法教程 Pandas 提供了一套强大的工具用于处理字符串数据，这些功能既可以直接利用 Python 的内置字符串方法，也可以通过正则表达式实现复杂的数据清洗和转换。以下是关于 Pandas 中字符串操作的核心知识点： #### 1. 基础概念 Pandas 使用 `.str` 访问器来执行基于 Series 或 DataFrame 列的字符串操作[^1]。这种方法允许用户轻松调用各种字符串方法并将其应用于整个序列。 #### 2. 常见字符串方法许多常见的字符串操作可以通过 `Series.str.<method>` 来完成。例如： - **获取字符串长度**: 下面展示了如何计算一个 Series 中每个字符串的长度。 ```python import numpy as np import pandas as pd s = pd.Series(['C', 'Python ', 'java', 'go', np.nan, '1125 ', 'javascript']) lengths = s.str.len() print(lengths) ``` 输出结果为： ``` 0 1.0 1 7.0 2 4.0 3 2.0 4 NaN 5 5.0 6 10.0 dtype: float64 ``` - **去除空白字符**: 如果需要移除字符串两端的多余空格，可以使用 `.strip()` 方法。 ```python stripped_series = s.str.strip() print(stripped_series) ``` - **查找子字符串位置**: 可以使用 `.find()` 或 `.index()` 查找特定子字符串的位置。 ```python positions = s.str.find('a') print(positions) ``` #### 3. 正则表达式的应用当面对更加复杂的匹配需求时，Pandas 支持正则表达式 (regex)，能够灵活地提取、替换或分割字符串。例如： - **提取匹配部分**: 使用 `.extract()` 函数可以从字符串中抽取符合正则模式的部分。 ```python regex_pattern = r'(\d+)' extracted_numbers = s.str.extract(regex_pattern) print(extracted_numbers) ``` - **替换内容**: 若需将某些模式替换成其他值，则可借助 `.replace()` 实现。 ```python replaced_values = s.str.replace(r'\s+', '', regex=True) print(replaced_values) ``` #### 4. 性能优化与内存管理由于 Pandas 底层依赖于 NumPy 数组结构，在处理大规模数据集时具备较高的效率[^3]。然而需要注意的是，尽管数值型字段易于统计其占用空间大小，但对于变长字符串而言情况会有所不同——因此建议合理规划存储方案以减少不必要的资源浪费。综上所述，无论是简单的文本变换还是高级模式识别任务，Pandas 都提供了简洁高效的解决方案[^2][^4]。 ---