Pandas 08-文本数据

最新推荐文章于 2023-06-25 15:06:58 发布

Gocara

最新推荐文章于 2023-06-25 15:06:58 发布

阅读量192

点赞数

分类专栏： Pandas 文章标签： pandas

本文链接：https://blog.csdn.net/qq_34903176/article/details/112213271

版权

Pandas 08-文本数据

import numpy as np
import pandas as pd

一、str对象

1. str对象的设计意图

str对象是定义在Index或Series上的属性，专门用于逐元素处理文本内容，其内部定义了大量方法，因此对一个序列进行文本处理，首先需要获取其str对象。在Python标准库中也有str模块，为了使用上的便利，有许多函数的用法pandas照搬了它的设计，例如字母转为大写的操作：

var = 'abcd'
str.upper(var) # Python内置str模块

'ABCD'

s = pd.Series(['abcd', 'efg', 'hi'])
s.str

<pandas.core.strings.StringMethods at 0x23d2c3b5b38>

s.str.upper() # pandas中str对象上的upper方法

0    ABCD
1     EFG
2      HI
dtype: object

根据文档API材料，在pandas的50个str对象方法中，有31个是和标准库中的str模块方法同名且功能一致，这为批量处理序列提供了有力的工具。

2. []索引器

对于str对象而言，可理解为其对字符串进行了序列化的操作，例如在一般的字符串中，通过[]可以取出某个位置的元素：

var[0]

'a'

同时也能通过切片得到子串：

var[-1: 0: -2]

'db'

通过对str对象使用[]索引器，可以完成完全一致的功能，并且如果超出范围则返回缺失值：

s.str[0]

0    a
1    e
2    h
dtype: object

s.str[-1: 0: -2]

0    db
1     g
2     i
dtype: object

s.str[2]

0      c
1      g
2    NaN
dtype: object

3. string类型

在上一章提到，从pandas的1.0.0版本开始，引入了string类型，其引入的动机在于：原来所有的字符串类型都会以object类型的Series进行存储，但object类型只应当存储混合类型，例如同时存储浮点、字符串、字典、列表、自定义类型等，因此字符串有必要同数值型或category一样，具有自己的数据存放类型，从而引入了string类型。

总体上说，绝大多数对于object和string类型的序列使用str对象方法产生的结果是一致，但是在下面提到的两点上有较大差异：

首先，应当尽量保证每一个序列中的值都是字符串的情况下才使用str属性，但这并不是必须的，其必要条件是序列中至少有一个可迭代（Iterable）对象，包括但不限于字符串、字典、列表。对于一个可迭代对象，string类型的str对象和object类型的str对象返回结果可能是不同的。

s = pd.Series([{
   1: 'temp_1', 2: 'temp_2'}, ['a', 'b'], 0.5, 'my_string'])
s.str[1]

0    temp_1
1         b
2       NaN
3         y
dtype: object

s.astype('string').str[1]

0    1
1    '
2    .
3    y
dtype: string

除了最后一个字符串元素，前三个元素返回的值都不同，其原因在于当序列类型为object时，是对于每一个元素进行[]索引，因此对于字典而言，返回temp_1字符串，对于列表则返回第二个值，而第三个为不可迭代对象，返回缺失值，第四个是对字符串进行[]索引。而string类型的str对象先把整个元素转为字面意义的字符串，例如对于字典而言，第一个元素即 “{”，而对于最后一个字符串元素而言，恰好转化前后的表示方法一致，因此结果和object类型一致。

除了对于某些对象的str序列化方法不同之外，两者另外的一个差别在于，string类型是Nullable类型，但object不是。这意味着string类型的序列，如果调用的str方法返回值为整数Series和布尔Series时，其分别对应的dtype是Int和boolean的Nullable类型，而object类型则会分别返回int/float和bool/object，取决于缺失值的存在与否。同时，字符串的比较操作，也具有相似的特性，string返回Nullable类型，但object不会。

s = pd.Series(['a'])
s.str.len()

0    1
dtype: int64

s.astype('string').str.len()

0    1
dtype: Int64

s == 'a'

0    True
dtype: bool

s.astype('string') == 'a'

0    True
dtype: boolean

s = pd.Series(['a', np.nan]) # 带有缺失值

s.str.len()

0    1.0
1    NaN
dtype: float64

s.astype('string').str.len()

0       1
1    <NA>
dtype: Int64

s == 'a'

0     True
1    False
dtype: bool

s.astype('string') == 'a'

0    True
1    <NA>
dtype: boolean

最后需要注意的是，对于全体元素为数值类型的序列，即使其类型为object或者category也不允许直接使用str属性。如果需要把数字当成string类型处理，可以使用astype强制转换为string类型的Series：

s = pd.Series([12, 345, 6789])
s.astype('string').str[1]

0    2
1    4
2    7
dtype: string

二、正则表达式基础

这一节的两个表格来自于learn-regex-zh这个关于正则表达式项目，其使用MIT开源许可协议。这里只是介绍正则表达式的基本用法，需要系统学习的读者可参考正则表达式必知必会一书。

1. 一般字符的匹配

正则表达式是一种按照某种正则模式，从左到右匹配字符串中内容的一种工具。对于一般的字符而言，它可以找到其所在的位置，这里为了演示便利，使用了python中re模块的findall函数来匹配所有出现过但不重叠的模式，第一个参数是正则表达式，第二个参数是待匹配的字符串。例如，在下面的字符串中找出apple：

import re
re.findall('Apple', 'Apple! This Is an Apple!')

['Apple', 'Apple']

元字符	描述
.	匹配除换行符以外的任意字符
[ ]	字符类，匹配方括号中包含的任意字符
[^ ]	否定字符类，匹配方括号中不包含的任意字符
*	匹配前面的子表达式零次或多次
+	匹配前面的子表达式一次或多次
?	匹配前面的子表达式零次或一次
{n,m}	花括号，匹配前面字符至少 n 次，但是不超过 m 次
(xyz)	字符组，按照确切的顺序匹配字符xyz
\|	分支结构，匹配符号之前的字符或后面的字符
\	转义符，它可以还原元字符原来的含义
^	匹配行的开始
$	匹配行的结束

re.findall('.', 'abc')

['a', 'b', 'c']

re.findall('[ac]',

最低0.47元/天解锁文章

Gocara

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Pandas 08-文本数据

Pandas 08-文本数据import numpy as npimport pandas as pd一、str对象1. str对象的设计意图str对象是定义在Index或Series上的属性，专门用于逐元素处理文本内容，其内部定义了大量方法，因此对一个序列进行文本处理，首先需要获取其str对象。在Python标准库中也有str模块，为了使用上的便利，有许多函数的用法pandas照搬了它的设计，例如字母转为大写的操作：var = 'abcd'str.upper(var) # Python内置
复制链接

扫一扫