#!/usr/bin/env python
# coding: utf-8
# # 第二课 Pandas文本数据分析
# ## 第五节 常用的文本数据操作函数小结
# In[1]:
import pandas as pd
import numpy as np
# In[2]:
data_df = pd.read_csv('./datasets/2016_happiness.csv')
data_df.head()
# * strip() 从两侧的Series/Index中的每个字符串中删除空格(包括换行符)。
# In[3]:
s = pd.Series(['1. Ant. ', '2. Bee!\n', '3. Cat?\t', np.nan])
s
# In[4]:
s.str.len()
# In[5]:
s.str.strip()
# In[6]:
s.str.strip().str.len()
# * str.contains() 如果元素中包含子字符串,则返回每个元素的布尔值True,否则为False。
# In[7]:
# 区分大小写
data_df['Region'].str.contains('europe').head(10)
# In[8]:
# 忽视大小写
data_df['Region'].str.contains('europe', case=False).head(10)
# In[9]:
# 数据过滤
data_df[data_df['Region'].str.contains('europe', case=False)]
# * str.repeat() 重复每个元素指定的次数。
# In[10]:
s = pd.Series(['a', 'b', 'c'])
s
# In[11]:
# 每个数据重复相同次数
s.str.repeat(repeats=2)
# In[12]:
# 每个数据重复不同的次数
s.str.repeat(repeats=[1, 2, 3])
# * str.startswith() 如果Series/Index中的元素以模式开始,则返回true。
# In[13]:
# 找出以Z开头的国家记录
data_df[data_df['Country'].str.startswith('Z')]
# * str.endswith() 如果Series/Index中的元素以模式结束,则返回true。
# In[14]:
# 找出以y结尾的国家记录
data_df[data_df['Country'].str.endswith('y')]
# * str.swapcase() 变换字母大小写
# In[15]:
data_df['Country'].str.swapcase().head()
# * str.islower() 检查Series/Index中每个字符串中的所有字符是否小写,返回布尔值
# * str.isupper() 检查Series/Index中每个字符串中的所有字符是否大写,返回布尔值
# * str.isnumeric() 检查Series/Index中每个字符串中的所有字符是否为数字,返回布尔值。
# In[16]:
data_df2 = pd.DataFrame()
data_df2['col1'] = ['aBc', 'abc', 'ABC']
data_df2['col2'] = ['1212.123', 'abc', '2323']
data_df2
# In[17]:
data_df2['col1'].str.islower()
# In[18]:
data_df2['col1'].str.isupper()
# In[19]:
# 注意检查的是字符串中的每个字符
data_df2['col2'].str.isnumeric()
# In[ ]:
pandas-常用文本操作函数
最新推荐文章于 2024-04-22 10:35:14 发布