pandas详解文本数据

文本数据一、string类型的性质1. string与object的区别(1)字符存取方法会返回相应数据的Nullable类型,而object会岁缺失值的存在而改变返回类型(2) 某些Series方法不能用在string上,例如:Series.str.decode(),存储的是字符串而不是字节(3)string类型在缺失值存储或运算时,类型会广播为pd.NA,而不是浮点型np.nan2. string类型的转换如果将一个其他类型的容器直接转换string类型可能会出错。当下正确的方法是分两部转
摘要由CSDN通过智能技术生成

文本数据

一、string类型的性质

1. string与object的区别
(1)字符存取方法会返回相应数据的Nullable类型,而object会岁缺失值的存在而改变返回类型
(2) 某些Series方法不能用在string上,例如:Series.str.decode(),存储的是字符串而不是字节
(3)string类型在缺失值存储或运算时,类型会广播为pd.NA,而不是浮点型np.nan
2. string类型的转换
如果将一个其他类型的容器直接转换string类型可能会出错。当下正确的方法是分两部转换,先转为str型object,再转为string类型。str是将该对象转换成字符串类型,string是该对象原本就是字符串

pd.Series([1,'1.']).astype('str').astype('string')
pd.Series([1,2]).astype('str').astype('string')
pd.Series([True,False]).astype('str').astype('string')

上述代码分别是将object型、int型、bool型分两步转换为string类型。直接转会报错。

二、 拆分与拼接

1. str.split方法

(a) 分隔符与str的位置元素选取
s = pd.Series(['a_b_c', 'c_d_e', np.nan, 'f_g_h'], dtype="string")
s.str.split('_')

结果:

0 [a, b, c]
1 [c, d, e]
2
3 [f, g, h]
dtype: object

对于str方法可以进行元素的选择,如果该单元格元素是列表,那么str[i]表示取出第i个元素,如果是单个元素,则先把元素转为列表在取出

s.str.split('_').str[1]
pd.Series(['a_b_c', ['a','b','c']], dtype="object").str[1]
(b)其他参数
expand参数控制了是否将列拆开,n参数代表最多分割多少次
s.str.split('_',expand=True)

在这里插入图片描述

s.str.split('_',n=1)

0 [a, b_c]
1 [c, d_e]
2
3 [f, g_h]
dtype: object

s.str.split('_',expand=True,n=1)

在这里插入图片描述

2. str.cat方法

(a)不同对象的拼接模式
cat方法对于不同对象的作用结果并不相同,
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值