Pandas-处理文本字符串（拆分split和替换replace）

最新推荐文章于 2024-06-23 08:38:58 发布

一个IT小白

最新推荐文章于 2024-06-23 08:38:58 发布

阅读量1.3w

点赞数 5

分类专栏： pandas的那些事文章标签： pandas

本文链接：https://blog.csdn.net/qq_14815199/article/details/120972768

版权

30 篇文章

订阅专栏

一、pandas中拆分字符串使用的是split

pandas.Series.str.split(pat=None, n=-1, expand=False)

参数解释：

pat：string 或者正则表达式，若为空，则为连续的空格，包括（换行符、空格、制表符）
n：默认值为-1，若为None, 0 都会被修改成-1（从上图中的源码也能看出来），即能分割多少次就分割多少次，与str.split()的n=-1，re.split()的maxsplit=0一致；
expand：决定了分割后的结果是分布在多列（返回DataFrame）还是以列表的形式分布在一列中（返回Series）

1. 使用split方法拆分字符

输出：

2. 切分后的列表中的元素可以通过 get 方法或者 [] 方法进行读取：

输出：

3. 使用expand方法可以轻易地将这种返回展开为一个数据表

输出：

4. 限制切分的次数：

输出：

5. rsplit与split相似，不同的是，这个切分的方向是反的。即，从字串的尾端向首段切分

输出：

二、 pandas中替换字符串使用的是replace

DataFrame.replace(to_replace=None, value=None, inplace=False, limit=None, regex=False, 
                  method='pad')

参数解释：

1.replace的基本用法

输出：

2. 一定要时时记得，是正则表达式，因此要格外小心

例如，因为正则表达式中的*$*符号,下列代码将会导致一些错误

输出：

3. 参数regex的使用

如果你只是向单纯地替换字符，你可以将可选参数 regex 设置为 False，而不是傻傻地转义所有符号。这种情况下，pat 和 repl 就都将作为普通字符对待：

输出：

4. 也可以传入一个可调用对象作为替换值。它针对每一个 pat 通过来调用

输出：

5. 也可以接受一个来自re.compile()编译过的正则表达式对象，来做为表达式

输出：