如何用Pandas处理文本数据?

本文详细探讨了Pandas中string类型的性质与操作,包括与object的区别、转换方法、拆分与拼接、替换和子串匹配。重点讲解了str.split、str.replace、str.extract等方法的使用,强调了在string类型中使用replace函数的注意事项,以及正则表达式在替换和匹配中的应用。同时,还提出了几个与字符串处理相关的问题和练习供读者思考。
摘要由CSDN通过智能技术生成
↑↑↑关注后"星标"Datawhale
每日干货 & 每月组队学习,不错过
 Datawhale干货 
作者:耿远昊,Datawhale成员,华东师范大学
文本数据是指不能参与算术运算的任何字符,也称为字符型数据。如英文字母、汉字、不作为数值使用的数字(以单引号开头)和其他可输入的字符。文本数据具有数据维度高、数据量大且语义复杂等特点,是一种较为复杂的数据类型。今天,我们就来一起看看如何使用Pandas对文本数据进行数据处理。 本文目录
    1. string类型的性质        1.1. string与object的区别        1.2. string类型的转换    2. 拆分与拼接        2.1. str.split方法        2.2. str.cat方法    3. 替换        3.1. str.replace的常见用法        3.2. 子组与函数替换        3.3. 关于str.replace的注意事项    4. 字串匹配与提取        4.1. str.extract方法        4.2. str.extractall方法        4.3. str.contains和str.match    5. 常用字符串方法        5.1. 过滤型方法        5.2. isnumeric方法    6. 问题及练习        6.1. 问题        6.2. 练习

一、string类型的性质

1. 1 string与object的区别

string类型和object不同之处有三点:
① 字符存取方法(string accessor methods,如str.count)会返回相应数据的Nullable类型,而object会随缺失值的存在而改变返回类型;
② 某些Series方法不能在string上使用,例如:Series.str.decode(),因为存储的是字符串而不是字节;
③ string类型在缺失值存储或运算时,类型会广播为pd.NA,而不是浮点型np.nan
其余全部内容在当前版本下完全一致,但迎合Pandas的发展模式,我们仍然全部用string来操作字符串。

1.2 string类型的转换

首先,导入需要使用的包

import pandas as pd
import numpy as np
如果将一个其他类型的容器直接转换string类型可能会出错:
#pd.Series([1,'1.']).astype('string') #报错
#pd.Series([1,2]).astype('string') #报错
#pd.Series([True,False]).astype('string') #报错
当下正确的方法是分两部转换,先转为str型object,在转为string类型:
pd.Series([1,'1.']).astype('str').astype('string')
0     1
1     1
dtype: string
pd.Series([1,2]).astype('str').astype('string')
0    1
1    2
dtype: string
pd.Series([True,False]).astype('str').astype('string')
0     True
1    False
dtype: string

二、拆分与拼接

2.1 str.split方法

(a)分割符与str的位置元素选取
s = pd.Series(['a_b_c', 'c_d_e', np.nan, 'f_g_h'], dtype="string")
s
0    a_b_c
1    c_d_e
2     <NA>
3    f_g_h
dtype: string
根据某一个元素分割,默认为空格
s.str.split('_')
0    [a, b, c]
1    [c, d, e]
2         <NA>
3    [f, g, h]
dtype: object
这里需要注意split后的类型是object,因为现在Series中的元素已经不是string,而包含了list,且string类型只能含有字符串。
对于str方法可以进行元素的选择,如果该单元格元素是列表,那么str[i]表示取出第i个元素,如果是单个元素,则先把元素转为列表在取出。
s.str.split('_').str[1]
0       b
1       d
2    <NA>
3       g
dtype: object
pd.Series(['a_b_c', ['a','b','c']], dtype="object").str[1] 
#第一个元素先转为['a','_','b','_','c']
0    _
1    b
dtype: object
(b)其他参数
expand参数控制了是否将列拆开,n参数代表最多分割多少次
s.str.split('_',expand=True)

s.str.split('_',n=1)
0    [a, b_c]
1    [c, d_e]
2        <NA>
3    [f, g_h]
dtype: object
s.str.split('_',expand=True,n=1)

2.2 str.cat方法

(a)不同对象的拼接模式
cat方法对于不同对象的作用结果并不相同,其中的对象包括:单列、双列、多列
① 对于单个Series而言,就是指所有的元素进行字符合并为一个字符串
s = pd.Series(['ab',None,'d'],dtype='string')
s
0      ab
1    <NA>
2       d
dtype: string
s.str.cat()
'abd&#
  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值