以下对pandas.DataFrame的多列字符串通过合并(串联)来创建新列的方法进行说明。
连接字符串
str.cat()
+运算符
NaN缺失值的处理
字符串列和数值列的连接
将串联的列添加到pandas.DataFrame
以下面的数据为例。import pandas as pd
df = pd.read_csv('./data/11/sample_pandas_normal.csv').head(3)print(df)# name age state point# 0 Alice 24 NY 64# 1 Bob 42 CA 92# 2 Charlie 18 CA 70
连接字符串
str.cat()
可以使用字符串方法str.cat()连接字符串。
调用原pandas.Series和第一个参数中指定的pandas.Series的元素进行串联,返回一个pandas.Series。print(df['name'].str.cat(df['state']))# 0 AliceNY# 1 BobCA# 2 CharlieCA# Name: name, dtype: object
如果为参数sep指定了字符串,则会在它们之间插入一个字符串。print(df['name'].str.cat(df['state'], sep=' in '))# 0 Alice in NY# 1 Bob in CA# 2 Charlie in CA# Name: name, dtype: object
可以将具有相同数量元素的NumPy数组ndarray或list指定为第一个参数。print(df['name'].str.cat(['X', 'Y', 'Z'], s