Pandas对于字符串和文本处理通常是由一些内置的字符串方法指定,一般语法格式为:series.str.method。其中,str.method被称为矢量化的字符串方法,包括str.upper()、str.lower()、str.split()等一系列字符串的内置方法,还可以结合正则化式进行处理。
(1)矢量化的字符串方法将对Series或者Index中的每个元素都进行相同的处理;
说明:缺失值不做任何处理
>>> s = pd.Series(['ADJruK','hjuQ',np.nan,'hj'])
>>> s
0 ADJruK
1 hjuQ
2 NaN
3 hj
dtype: object
>>> s.str.upper()
0 ADJRUK
1 HJUQ
2 NaN
3 HJ
dtype: object
(2)对于Index对象也可以使用矢量化字符串的处理方式;
>>> df = pd.DataFrame(np.random.randint(10,size=(2,3)),columns=['Jack Joe','BOB Marly','sid Jane'])
>>> df
Jack Joe BOB Marly sid Jane
0 4 1 4
1 9 1 8
#将所有列名转化为小写
>>> df.columns = df.column