文章目录
前言
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。
今天总结的是时间特征部分。时间特征构造包括连续时间特征和离散时间特征。连续时间特征比如持续时间和间隔时间,离散时间特征有拆解、判断等。本学习案例中用到的是离散时间特征构造,将一天时间按照从凌晨00:00:00开始进行标记,每五分钟是一个间隔,一天标记288个tag。困难在于数据量比较大,且每天的切入点时间未知,无法进行排序。因此只有通过解析时间格式进行标记。
一、时间戳与时间
首先给出时间戳的定义(挺有意思):
时间戳是指格林威治时间1970年01月01日00时00分00秒(北京时间1970年01月01日08时00分00秒)起至现在的总秒数。
有些数据中的时间戳格式可通过下面的程序进行转换,转换成具有可读性的时间格式
def stamp_to_time(stamp,strformat="%Y-%m-%d %H:%M:%S"):
stamp = int(stamp)
ltime = time.localtime(stamp)
timeStr = time.strftime(strformat, ltime)
return timeStr
二、时间格式解析
可将具有可读性的时间格式解析、拆分,得到需要的时分秒或忽略不必要的年份等等,方便后续程序的使用
timestamp=1459175064#转换成时间戳
time_local = time.localtime(timestamp)# 转换成新的时间格式
dt