阅读笔记:Time Series FeatuRe Extraction on basis of Scalable Hypothesis tests (tsfresh – A Python package)
摘要:
时间序列特征工程是一个耗时的过程,因为科学家和工程师必须考虑信号处理和时间序列分析的多种算法,以便从时间序列中识别和提取有意义的特征。Python工具包tsfresh(基于可扩展假设检验的时间序列特征提取)通过组合63个时间序列表征方法(characterization methods)来加速此过程,默认情况下计算总共794个时间序列特征,并基于自动配置的假设检验进行特征选择。通过在数据科学过程的早期阶段识别具有统计显着性的时间序列特征,tsfresh将关闭与领域专家的反馈循环,并在早期促进领域特定功能的开发。该软件包实现了时间序列和机器学习库(例如pandas和scikit-learn)的标准API,旨在用于探索性分析以及直接集成到操作数据科学应用程序中。
1. Introduction
诸如物联网(IoT)[1],工业4.0 [2]和精准医学[3]等趋势是由廉价传感器的可用性和搞的联通性推动的,其中包括增加时间注释数据的可用性。由此产生的时间序列是机器学习应用的基础,如分类任务中的硬盘特定故障风险等级分类[4],人类心跳分析[5],生产线优化[6],日志分析服务器农场检测入侵者[7],或识别具有高感染风险的患者[8]。回归任务的例子是预测机器的剩余使用寿命[9]或复杂事件处理应用中条件事件发生的估计[10]。其他频繁出现的时间数据是来自过程的事件序列,可以通过过程演化函数将其转换为统一采样的时间序列[11]。
在数据科学项目的早期阶段,时间序列特征提取起着重要作用,以便快速提取和探索不同的时间序列特征,并评估它们在预测目标方面的统计意义。Python工具包tsfresh通过提供基于FRESH算法的自动时间序列特征提取和选择来支持此过程[12]。
2. Problems and background
时间序列是在时间上顺序进行的观测值序列[13]。为了使用一组时间序列 D={ xi}Ni=1 D = { x i } i = 1 N 作为监督或无监督机器学习算法的输入,每个时间序列 χi χ i 需要被映射到具有问题特定维度M和特征的明确定义的特征空间中。向量 xi=(xi,1,