上一篇文章中,我们已删除了dataframe中不必要的行列,并学会了如何更改行索引。在这篇文章中,我会教大家清理特定的列并将它们化为统一格式,以使数据集更好看并且增强数据集的一致性。
首先我们回顾下上篇文章清理后的数据集
我们可以看到Date of Publication和Place of Publication这两列还是需要进行格式统一的。首先我们定位到Date of Publication列看一看
df.loc[1905:, 'Date of Publication'].head(10)
可以知道的是一本书的出版日期应该只有一个,但是我们发现原始数据集中有很多不规则或者错误的日期表示,因此,我们需要执行以下操作:
- 删除方括号中多余的日期,例如:1879 [1878]
- 将日期范围转换为它们的“开始日期”,例如:1860-63; 1839,38-54
明确了我们要做什么之后,这个时候就得用到正则表达式了