pandas数据清洗

1、使用pandas进行数据清洗

1.1、数据问题

  1. 没有列头
  2. 一个列有多个参数
  3. 列数据的单位不统一
  4. 缺失值
  5. 重复数据
  6. 非ASCII 字符
  7. 有些列头应该是数据,而不应该是列名参数

1.2、读取数据

使用pandas读取数据时,如果原数据没有列名,需要指定列名,否则pandas将会默认使用第一行数据当做列名
在这里插入图片描述

1.3、切分列

函数用法:split(sep,n,expand=false)

sep表示用于分割的字符;n表格分割成多少列;expand表示是否展开为DataFrame,True输出Series,False输出Dataframe。

像name列含有firstname和lastname 需要将其拆分成两列

  • 1
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Pandas是一个强大的数据处理和分析工具,它提供了丰富的功能来进行数据清洗。下面是一些常用的数据清洗操作: 1. 数据导入:使用Pandas可以方便地从各种数据源导入数据,如CSV文件、Excel文件、数据库等。 2. 缺失值处理:使用Pandas可以很方便地处理数据中的缺失值。可以使用`isnull()`函数检测缺失值,使用`fillna()`函数填充缺失值,或者使用`dropna()`函数删除包含缺失值的行或列。 3. 重复值处理:使用Pandas可以轻松地检测和删除数据中的重复值。可以使用`duplicated()`函数检测重复值,使用`drop_duplicates()`函数删除重复值。 4. 数据类型转换:Pandas可以将数据转换为不同的数据类型,如字符串、日期时间等。可以使用`astype()`函数进行数据类型转换。 5. 数据排序:使用Pandas可以对数据进行排序。可以使用`sort_values()`函数按照指定的列进行排序,使用`sort_index()`函数按照索引进行排序。 6. 数据筛选:使用Pandas可以根据条件筛选数据。可以使用布尔索引、`query()`函数或者`loc[]`、`iloc[]`函数进行数据筛选。 7. 数据合并:Pandas提供了多种方法来合并数据,如`concat()`函数、`merge()`函数和`join()`函数。 8. 数据分组和聚合:使用Pandas可以对数据进行分组和聚合操作。可以使用`groupby()`函数进行分组,然后使用聚合函数(如`sum()`、`mean()`、`count()`等)进行聚合计算。 9. 数据重塑:Pandas提供了多种方法来重塑数据的形状,如`pivot()`函数、`melt()`函数和`stack()`函数。 以上是一些常用的Pandas数据清洗操作,当然还有很多其他功能和方法可以用于数据清洗。如果你有具体的问题或者需要更详细的介绍,请告诉我。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值