# 读取数据到tample
tample= pd.read_csv('.\data\mum_baby.csv')
# 获取birthday 和 day 并转为datetime格式 记得astype(str) 否则有可能会所有数据变成1970-01-01的时间
tample['birthday'] = pd.to_datetime(tample['birthday'].astype(str))
tample['day'] = pd.to_datetime(tample['day'].astype(str))
# 计算两个日期之间相差的天数 结果为比如某一列 7 days
age_days = tample['day'] - tample['birthday']
# 把相差的天数新增到表中,列名命名为age_days
tample.loc[:, 'age_days'] = age_days
这时候发现这个age_days列中数据相差天数中还有个尾巴‘days’然鹅我并不想要这个尾巴,下面来把他删了
# 定义j来指定要修改的行处
j = 0
for i in age_days: # 遍历age_days中每行相差的天数
# 指定第j行的'age_days'列处的数据 赋值为 i.days ,i.days就是只获取天数
tample.loc[j, 'age_days'] = i.days
j += 1
# age_days为object类型 要改为int类型 不然describe无法统计年龄天数的最值
tample.age_days = pd.DataFrame(tample.age_days, dtype=int)
最后再保存数据
tample.to_csv(r'.\data\new_trade_history.csv')