这里是GitModel极客数模之统计分析训练营的第一关:pandas入门,说下我遇到的问题吧。
问题其实不多,因为之前学过一点pandas,手感还是不错的。这一次pandas入门唯一不会的就是最后一题了,卡了好久也没解开。
我就来说说倒数第二道题
这个题需要用到正则表达式的方法
笔者一开始的解法是这样的:
import re
for i in range(df['Airline'].shape[0]):
df['Airline'][i]=re.findall(pattern='[a-zA-Z]',string=df['Airline'][i])
即使用循环一个一个地将字符串转化,再将他们连接起来
df['Airline'].str.join(sep='')
得出结果
显然不符合要求,虽然只保留了英文,但他们原有空格也被删除了 。
之后想了第二种方法:
这个方法应该接近标准答案了。此处运用替换免去了循环,并且用strip去除空格,这也是笔者一开始没想到的好方法。