一、背景知识
1、什么是时序数据及分析目的?
时序数据是指时间序列数据。时间序列数据是同一指标按时间顺序记录的数据列。在同一数据列中的各个数据必须是同口径的,要求具有可比性。时序数据可以是【时期数】,也可以【时点数】。时间序列分析的目的是通过找出样本内时间序列的【统计特性】和【发展规律性】,构建时间序列模型,进行样本外【预测】。
——【定义来自百度】
Sky认为,更广义来说时序分析是一种数据挖掘:
通过“趋势、相关性、特征”,进行“整合、归纳、评估”。提升用户感知,优化用户体验,支持产品改进,加强业务管理水平。
2、涉及人群
本文主要目的是让研发人员理解时序分析和相关实现技术,同时适合以下人群:
-
决策层
通过了解时序分析的场景,推进分析指标的确定。制定解决问题的总体策略与方针
-
业务部门主管
给出专业的分析指标
-
数据分析师
解决业务问题,数据产生后,进行沟通,并对其发现进行深刻的分析
通过时序分析作为切入点,以此来全面思考数据驱动未来企业的方案。
二、基本原理
企业对于各端,都有埋点操作,而埋点获得的是一种时序行为数据,有用户行为,也有系统行为。大量的时序数据构成了我们的互联网时代,采用化整为零的思路实现之。
实现步骤如下:
-
定义时间盒子(时期数),常用的有:5min、1h、1d、1w、1m、1y
-
定义行为标签,每个行为标签包含<1>定义的时间盒子
-
时序数据到来,根据其时间戳,先放入相应的行为标签,再分别放入多个时间盒子。每个时间盒子都会进行计数+1操作
-
定义聚合操作盒子,每个时间盒子下有多个聚合操作盒子,常用有:sum、count、max、min、avg平均、med中位数、std标准方差
-
最终我们将原始的时序数据,按不同行为标签,存