一、tsfresh概述
tsfresh 可以自动计算大量的时间序列特性,包含许多特征提取方法和强大的特征选择算法。
tsfresh 用于从时间序列和其他序列数据中进行系统特征工程。这些数据的共同点是它们按自变量排序。最常见的自变量是时间(时间序列)。
有一个名为hctsa的 matlab 包,可用于从时间序列中自动提取特征。也可以通过pyopy 包在 Python 中使用 hctsa 。其他可用的打包程序是featuretools、FATS和cesium。
pip install tsfresh
tsfresh官网:https://tsfresh.readthedocs.io/en/latest/index.html
tsfresh 用于从时间序列和其他序列数据中进行系统特征工程。这些数据的共同点是它们按自变量排序。最常见的自变量是时间(时间序列)。
如果没有 tsfresh,将不得不手动计算所有这些特征;tsfresh 自动计算并自动返回所有这些特征。
此外,tsfresh 与 Python 库pandas和兼容scikit-learn。
目前,tsfresh 不适合:
- 用于流式数据(流式数据是指通常用于在线操作的数据,而时间序列数据通常用于离线操作);
- 在提取的特征上训练模型(我们不想重新发明轮子,要训练机器学习模型,请查看 Python 包 scikit-learn);
- 用于高度不规则的时间序列;tsfresh 仅使用时间戳对观察结果进行排序,而许多特征与区间无关(例如,峰值的数量)并且可以为任何序列确定,其他一些特征(例如,线性趋势)假设时间间隔相等,当这个假设不成立时应谨慎使用;