一般呢,我们拿到的原始数据中包含大量的脏数据,常常需要对其进行预处理,得到我们想要的数据格式。最常用的不外乎过滤数据、日期格式转换、填空值、排序、去重等,下面就用个实例来展示下pandas处理数据的基本用法吧。
原始数据:
实现功能:
- 读取原始数据
- 在A列中去除包含‘||’的行–>过滤数据
- 去除一行有3个空值的行–>过滤数据
- 将日期中的‘-’去掉–>日期格式转换
- E列的空值填1–>填空值
- 按D列的日期降序排列–>排序
- B列去重,保留第一行–>去重
- 保存处理结果
import pandas as pd
data = pd.read_csv('buydata.csv', sep=',', header=None, names=['cookie',<