通过日期字段提取年月日、timedelta提取时分秒并进行小时汇总

最新推荐文章于 2024-07-22 02:58:34 发布

lys_828

最新推荐文章于 2024-07-22 02:58:34 发布

阅读量7.6k

点赞数 15

分类专栏： python数据分析文章标签： python 数据分析时间序列分析 timedelta datetime

本文链接：https://blog.csdn.net/lys_828/article/details/110205754

版权

python数据分析专栏收录该内容

33 篇文章 39 订阅

订阅专栏

通过日期字段提取年月日、timedelta提取时分秒并进行小时汇总

1 业务需求
2 根据时间字段提取年月日
3 根据timedelta提取时分秒并进行小时汇总

手动反爬虫：原博地址

 知识梳理不易，请尊重劳动成果，文章仅发布在CSDN网站上，在其他网站看到该博文均属于未经作者授权的恶意爬取信息

如若转载，请标明出处，谢谢！

1 业务需求

在进行数据分析，经常会遇到时间处理的问题，有时候需要从时间字段中直接提取年月日，在进行汇报工作的时候会被要求进行汇报时间和完成时间的差值计算，并统计出时分秒，于是面对真实的业务需求，就对这个问题进行梳理一下，梳理结果如下图
在这里插入图片描述

2 根据时间字段提取年月日

方法：就是将时间字段转化成为datetime数据，然后提取year、month、day，这里为了方便今后的业务需求，直接给出封装的函数，方便日后调用，有兴趣进一步了解的可以看一下前不久更新的项目实例：时间序列特征分析汇总（以2012-2019年槽罐车事故数据为例）

def get_year_month_day(df,time_col):
    
    '''Extract the year, month, and day of the time field data'''
    
    df[time_col]  = pd.to_datetime(df[time_col])
    df['year'] = df[time_col].dt.year
    df['month'] = df[time_col].dt.month
    df['day'] = df[time_col].dt.day
    return df

接下来看看如何使用，首先是导入pandas进行数据的读取，在进行时间处理时pandas的版本不同会对时间处理的结果会有不同，代码执行结果如下
在这里插入图片描述
假如我们要提取工作完成日期的年月日，那么只需要将data和完成日期两个变量传递到函数中，即可得到想要的年月日的数据，如下

这种方式就很简单，不要什么操作，只需要读进来数据，把这个数据的变量和要提取年月日的字段变量填到函数中直接调用就可以了，最后生成带有年月日的数据

3 根据timedelta提取时分秒并进行小时汇总

还是真实的场景业务需要，要对报告时间和完成时间的差值进行数据提取，具体到天时分秒，最后还要加上一个总小时的汇总，下面就进行一步步梳理讲解

（1）首先构建完成时间的字段（完成日期+发生时间），并将报告时间和完成时间两个字段转化为datetime类型

由于完成时间的字段是有两个字段组成的，因此要现将其拼接成一个字段（如果不是同种数据类型不同列之间是不能直接相加，因此都转化为字符串），再转化为datetime类型，为了不破坏原数据，一般是命名为新字段，并由英文组成，方便后续操作，结果输出如下
在这里插入图片描述
（2）直接进行时间字段加减操作

上面英文命名就是为了接下来的快捷操作，jupyter notebook里面可以智能填充，直接输入完data.后按住tab就会出现自动补全的选项，指定刚刚命名的变量就可以了，这样要比第二种方式简洁，由于都是datetime数据类型，这样就可以直接加减，结果如下
在这里插入图片描述
然后看一下这个相减后的结果数据类型为啥，可以发现最终的标记为timedelta数据类型

那么看一下这个数据类型经过时间转换器后有哪些方法可以调用，是不是也和最开始的datetime数据类型一样有year、month、day等方法直接调用呢？结果发现只有天days的方法，没有hours、minnutes等方法，但是好在有seconds方法，那么就可以通过计算求出来hours、minnutes
在这里插入图片描述
那么就直接进行函数封装吧，注意留心一下外国人表示时间差的方式，比如下面输出的第3行和197行的diff_time数据，明明就是差一分钟，老外非要表示成为-1天+23小时59分钟，深深地被他们的逻辑折服，在下佩服佩服
在这里插入图片描述
简单的就是根据seconds计算hours、minnutes，最后要求的是按照hours进行汇总，是指将时间相差的时间转化为以hours作为标准，比如30minutes，化为0.5hours，1days20hours就为44hours，还是一贯的原则，为了方便日后调用直接封装函数，代码如下

def extract_day_minute_second(df,time):
    
    '''Extract the day, hour, minute and second of the Timedelta data'''
    
    df['days'] = df[time].dt.days
    hours, remainder = divmod(df[time].dt.seconds, 3600)
    df['hours'] = hours
    minutes, seconds = divmod(remainder, 60)
    df['minutes'] = minutes
    df['seconds'] = seconds
    df['total_hour'] = round(((df['days']*24 + df['hours'])*60 + df['minutes'])/60,3)
    return df