数据分析及预处理(二)——时间特征

本文探讨了在机器学习中的时间特征工程,重点是离散时间特征构造。通过解析时间戳和时间格式,将时间数据转化为可操作的标签。文章介绍了如何将一天划分为288个5分钟间隔的标签,并在数据量大且时间切入点未知的情况下进行处理。此外,还讨论了如何在DataFrame中添加这些时间特征列,并确保类型转换正确。
摘要由CSDN通过智能技术生成


前言

数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。

今天总结的是时间特征部分。时间特征构造包括连续时间特征和离散时间特征。连续时间特征比如持续时间和间隔时间,离散时间特征有拆解、判断等。本学习案例中用到的是离散时间特征构造,将一天时间按照从凌晨00:00:00开始进行标记,每五分钟是一个间隔,一天标记288个tag。困难在于数据量比较大,且每天的切入点时间未知,无法进行排序。因此只有通过解析时间格式进行标记。


一、时间戳与时间

首先给出时间戳的定义(挺有意思):
时间戳是指格林威治时间1970年01月01日00时00分00秒(北京时间1970年01月01日08时00分00秒)起至现在的总秒数。
有些数据中的时间戳格式可通过下面的程序进行转换,转换成具有可读性的时间格式

def stamp_to_time(stamp,strformat="%Y-%m-%d %H:%M:%S"):
	stamp = int(stamp)
	ltime = time.localtime(stamp)
	timeStr = time.strftime(strformat, ltime)
	return timeStr

二、时间格式解析

可将具有可读性的时间格式解析、拆分,得到需要的时分秒或忽略不必要的年份等等,方便后续程序的使用

timestamp=1459175064#转换成时间戳
time_local = time.localtime(timestamp)# 转换成新的时间格式
dt 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值