Pandas 模块-操纵数据(12)-处理字符串数据

目录

1. .str 模块

1.1 数据准备

1.2 .str 函数详解

1.2.1 .str capitalize() 首字母大写

 1.2.2 .str casefold() 返回字符串的副本

 1.2.3 .str cat() 连接输出

 1.2.4 .str center(width[,fillchar]) 字符串居中

 1.2.5 .str contains() 含有特定字符

 1.2.6 .str count() 计数

 1.2.7 .str endswith(suffix[, start[, end]]) 是否以指定后缀结尾

  1.2.8 .str extract(pat[,flags=0,expand=True]) 提取特定字符

  1.2.9 .str swapcase() 字符串大小写翻转

1.2.10 .str find(str [beg=0, end=len(string)]) / findall 检测是否包含子字符串 

1.2.11 .str join(str]) 连接生成新字符串  

1.2.12 .str replace(str1,str2]) str2 替换 str1

1.2.13 .str split(str[,num]) 用 str 分割字符串 

1.2.14 .str translate(table) 字符转换


我们实际处理数据时候,往往要对原始数据进行很多精细化处理,下面减少一些常用的处理字符串的方式。

1. .str 模块

        Pandas 的主要数据结构是 Series (一维数据)与 DataFrame(二维数据)。Series 结构中有个 str 模块,可以对字符串数据进行精雕细琢。

1.1 数据准备

import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123bm', '456cj', '789du', 'e11fo']})
print(df)
type(df['data'])
Series 类型数据

1.2 .str 函数详解

1.2.1 .str capitalize() 首字母大写

df['data'].str.capitalize()

 1.2.2 .str casefold() 返回字符串的副本

        casefold 返回字符串的副本,所有的大写字符都被转换为小写字符,并且使用Unicode规范化,以便比较字符串时能够忽略大小写和语言差异。与lower()方法不同,casefold()方法在转换时考虑了更多的字符集和语言差异。

import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123bM', '456Cj', '789du', 'e11fo']})
print(df)
print("*"*20)
df['data'].str.casefold()

 1.2.3 .str cat() 连接输出

        cat 命令原来是一个Linux shell命令。它是 concatenate 的简写。它被放在最常用的shell命令中。它可以用于各种目的,如在终端上显示一个文件的内容,将一个给定文件的内容复制到另一个给定文件,追加和覆盖内容都可以用 cat 命令完成。 在 Python 中它用来连接所有的数据一起输出

import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123bM', '456Cj', '789du', 'e11fo']})
print(df)
print("*"*20)
df['data'].str.cat()

 1.2.4 .str center(width[,fillchar]) 字符串居中

        center()是一个非常实用的方法。该方法主要用于将字符串居中,并在两侧填充指定字符(默认为空格)以达到指定的总长度。对于文本格式化、界面设计以及数据展示等场景,center()方法都能提供高效的解决方案。

  • width:指定字符串居中后的总长度,如果该长度小于原字符串长度,则原样返回字符串。

  • fillchar:可选参数,用于指定填充字符,默认为空格。

import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123bM', '456Cj', '789du', 'e11fo']})
print(df)
print("*"*20)
df['data'].str.center(20,"*")

 1.2.5 .str contains() 含有特定字符

        contains 方法可以判断子串是否在原字符串中。

import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123bM', '456Cj', '789du', 'e11fo']})
print(df)
print("*"*20)
df['data'].str.contains("M")

 1.2.6 .str count() 计数

        count 用于计算给定元素在字符串中出现的次数。

import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123bM', '456Cj', '789du', 'e11fo']})
print(df)
print("*"*20)
df['data'].str.count("(\d)")

 1.2.7 .str endswith(suffix[, start[, end]]) 是否以指定后缀结尾

        endswith() 方法用于判断字符串是否以指定后缀结尾,如果以指定后缀结尾返回True,否则返回False。可选参数"start"与"end"为检索字符串的开始与结束位置。

import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123bM', '456Cj', '789du', 'e11fo']})
print(df)
print("*"*20)
df['data'].str.endswith('\d')

  1.2.8 .str extract(pat[,flags=0,expand=True]) 提取特定字符

        extract 方法用于提取正则表达式pat中的捕获组作为DataFrame中的列。对于系列中的每个主题字符串,从正则表达式pat的第一个匹配中提取组。

        pat : 带有捕获组的正则表达式模式。
        flags : int, default 0 (no flags)
        expand : 如果为真,则返回每个捕获组有一列的DataFrame。

df['data'].str.extract("(\d+)")

  1.2.9 .str swapcase() 字符串大小写翻转

df['data'].str.swapcase()

 

1.2.10 .str find(str [beg=0, end=len(string)]) / findall 检测是否包含子字符串 

        find() 方法检测字符串中是否包含子字符串 str ,如果指定 beg(开始) 和 end(结束) 范围,则检查是否包含在指定范围内,如果包含子字符串返回开始的索引值,否则返回-1。

  • str -- 指定检索的字符串
  • beg -- 开始索引,默认为0。
  • end -- 结束索引,默认为字符串的长度。
import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123aM', '45aCa', '789da', 'e11f5']})
print(df['data'].str.find('a'))
print(df['data'].str.findall('a'))

1.2.11 .str join(str]) 连接生成新字符串  

         join() 方法用于将序列中的元素以指定的字符连接生成一个新的字符串。

import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123aM', '45aCa', '789da', 'e11f5']})
print(df['data'].str.join("-"))

1.2.12 .str replace(str1,str2]) str2 替换 str1

import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123aM', '45aCa', '789da', 'e11f5']})
print(df['data'].str.replace("a","A"))

1.2.13 .str split(str[,num]) 用 str 分割字符串 

       split 通过指定分隔符对字符串进行切片,如果参数 num 有指定值,则分隔 num+1 个子字符串

import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({'data': ['a123aM', '45aCa', '789da', 'e11f5']})
print(df['data'].str.split("\d"))

 

1.2.14 .str translate(table) 字符转换

         translate 用于执行字符转换操作。它接受一个映射表(translation table)作为参数,该映射表指定了要替换的字符以及它们的对应替换值。

import pandas as pd
# 创建一个示例 DataFrame
df = pd.DataFrame({'data': ['12345', '57890', '22222', '77777']})
table = str.maketrans( '0123456789','abcdefghij')
df['data'].str.translate(table)

  • 16
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
该资源内项目源码是个人的课程设计、毕业设计,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! ## 项目备注 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。 该资源内项目源码是个人的课程设计,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! ## 项目备注 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

江南野栀子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值