python dataframe删除某一列_python数据分析:整理某一列的内容

本文介绍如何在Python中清理DataFrame的Date of Publication和Place of Publication列,包括删除多余日期,统一日期格式,以及利用正则表达式和np.where处理地点信息,提升数据集的一致性和整洁度。
摘要由CSDN通过智能技术生成

上一篇文章中,我们已删除了dataframe中不必要的行列,并学会了如何更改行索引。在这篇文章中,我会教大家清理特定的列并将它们化为统一格式,以使数据集更好看并且增强数据集的一致性。

首先我们回顾下上篇文章清理后的数据集

53ff8bfd30cb5884528d4eaba8894066.png

我们可以看到Date of Publication和Place of Publication这两列还是需要进行格式统一的。首先我们定位到Date of Publication列看一看

df.loc[1905:, 'Date of Publication'].head(10)
e801b0de25fd4bb44ac0c5cdf9667787.png

可以知道的是一本书的出版日期应该只有一个,但是我们发现原始数据集中有很多不规则或者错误的日期表示,因此,我们需要执行以下操作:

  • 删除方括号中多余的日期,例如:1879 [1878]
  • 将日期范围转换为它们的“开始日期”,例如:1860-63; 1839,38-54

明确了我们要做什么之后,这个时候就得用到正则表达式了

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值