Datawhale开源学习内容链接:https://datawhalechina.github.io/joyful-pandas/build/html/%E7%9B%AE%E5%BD%95/ch8.html
第8章 文本数据
对一个序列进行文本处理,首先需要获取其str对象。
8.2.2 元字符基础
8.2.3 简写字符集
练习题1: 房屋数据集
1、将year列改为整数年份存储。
【我的解答】:
只需保留前4位数字,将该列的值的后两个字去掉即可。
df.year = df.year.str[:-2]
参考答案:
df.year = pd.to_numeric(df.year.str[:-2], errors='ignore').astype('Int64')
df
2、将floor列替换为Level,Highest两列,其中的元素分别为string类型的层类别和整数类型的最高层数。
【我的解答】:
先利用正则表达式来将两个值取出来。观察数据“高层(共6层)”
,我们可以发现,我们可以以「层」
来作为分割标志。
re.findall('.\层', df.floor[0])
输出:
['高层', '6层']
现在我们怎么让re.findall()