t刷新
此存储库包含tsfreshpython包。缩写代表
“基于可伸缩假设检验的时间序列特征提取”。
该软件包包含多种特征提取方法和一种稳健的特征选择算法。
在功能工程上花费更少的时间
数据科学家通常把大部分时间花在清理数据或构建特征上。
虽然我们不能改变第一件事,但第二件事可以自动化。
tsfresh通过自动提取功能来释放您用于构建功能的时间。
因此,你有更多的时间学习最新的深度学习论文,阅读黑客新闻或建立更好的模型。
自动提取100个特征
tsfresh自动从时间序列中提取100个特征。
这些特征描述了时间序列的基本特征,如峰数、平均值或最大值或更复杂的特征,如时间反转对称统计。
然后,可以使用这组特征在时间序列上构造统计或机器学习模型,例如在回归或
分类任务。
忘记不相关的功能
时间序列通常包含噪声、冗余或不相关的信息。
因此,大多数提取的特征对于手头的机器学习任务将没有用处。
为了避免提取不相关的特性,tsfresh包有一个内置的过滤过程。
这个过滤过程评估每个特征对于手头的回归或分类任务的解释能力和重要性。
它基于成熟的假设检验理论,采用多重检验方法。
因此,滤波过程在数学上控制不相关提取特征的百分比。
tsfresh包在下面的开放存取文件中介绍Christ,M.,Braun,N.,Neuffer,J.和Kempa Liehr A.W.(2018年)。
基于可伸缩假设测试(tsfresh——一个python包)的时间序列特征提取。
神经计算307(2018)72-77,doi:10.1016/j.neucom.2018.03.067。
新算法在下面的白皮书中介绍Christ,M.,Kempa Liehr,A.W.和Feindt,M.(2017年)。
用于工业大数据应用的分布式并行时间序列特征提取。
arxiv电子打印1610.07717,https://arxiv.org/abs/1610.07717。
tsfresh的优点
tsfresh有几个卖点,例如它经过现场测试
它经过单元测试
滤波过程在统计/数学上是正确的
它有一个全面的文档
它与sklearn、pandas和numpy兼容
它允许任何人轻松地添加自己喜爱的功能
它既可以在本地计算机上运行,也可以在群集上运行
下一步
文中还对算法,特别是滤波部分进行了描述。
如果您有兴趣帮助我们使tsfresh成为python中最大的特征提取方法存档,请直接阅读我们的How-To-Contribute说明,我们将不胜感激。
致谢
tsfresh的研究和开发部分由德国联邦教育和研究部资助,赠款编号为01is14004(iprodict项目)。
欢迎加入QQ群-->: 979659372
推荐PyPI第三方库