【编程实践】Joyful-Pandas(下)Task02(第七章):文本数据

本文深入探讨了Pandas中处理文本数据的技巧,包括字符串类型的性质,如与object的区别,字符串转换,拆分与拼接,替换,子串匹配与提取,以及常用字符串方法。通过实例介绍了str.split、str.cat、str.replace等方法的用法,并提供了相关练习题以巩固学习。
摘要由CSDN通过智能技术生成

缺失数据和文本数据(尤其是混杂性文本)是数据预处理中比较麻烦的类型,本章节聚焦于文本数据。

理论部分

  • 掌握基本正则表达式的用法
  • 理解string类型的性质
  • 掌握文本类型的5类操作
  • 熟悉常见字符串方法

练习部分

  • 两道文本数据练习题
import pandas as pd
import numpy as np

string类型的性质

string与object的区别

string类型和object不同之处有三:

  1. 字符存取方法(string accessor methods,如str.count)会返回相应数据的Nullable类型,而object会随缺失值的存在而改变返回类型
  2. 某些Series方法不能在string上使用,例如: Series.str.decode(),因为存储的是字符串而不是字节
  3. string类型在缺失值存储或运算时,类型会广播为pd.NA,而不是浮点型np.nan
    其余全部内容在当前版本下完全一致,但迎合Pandas的发展模式,我们仍然全部用string来操作字符串

String类型的转换

如果将一个其他类型的容器直接转换string类型可能会出错:

#pd.Series([1,'1.']).astype('string') #报错
#pd.Series([1,2]).astype('string') #报错
#pd.Series([True,False]).astype('string') #报错

当下正确的方法是分两部转换,先转为str型object,在转为string类型:

pd.Series([1,'1.']).astype('str').astype('string')
pd.Series([1,2]).astype('str').astype('string')
pd.Series([True,False]).astype('str').astype('string')

拆分与拼接

str.split方法

分割符与str的位置元素选取

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值