数据分析
文章平均质量分 79
qq_24591139
这个作者很懒,什么都没留下…
展开
-
Boruta原理及Python-BorutaPy的API应用
一、基本介绍Boruta 算法是一种特征筛选方法,其核心是基于两个思想:shadow features和binomial distribution。该算法可以自动在数据集上执行特征选择。作为 R 的一个包而诞生。目前 Python 的 Boruta 版本是 BorutaPy。二、基本原理2.1 算法原理2.1.1 算法步骤创建阴影特征 (shadow feature) 。从X开始,对每个真实特征R,随机打乱顺序,这些被打乱顺序的原始特征称为阴影特征(shadow features)。此时,阴原创 2022-05-12 16:04:59 · 6851 阅读 · 2 评论 -
tsfresh基本原理及使用
一、引言1、基本介绍tsfresh 用于从时间序列或其他序列数据中进行系统特征工程。这些数据的共同点是它们按自变量排序。最常见的自变量是时间(时间序列)。比如,工业界毫秒级制程数据,不同用户连续交易数据等等。tsfresh一方面提供了大量衍生规则(统计指标计算的方法)供使用者按照自身需求单独调用;另一方面,提供了自动提取大量统计指标特征并自动进行筛选的方法。tsfresh仅特征工程模块相关功能,用于后续机器学习或深度学习算法的模型训练,不提供模型。2、使用二、衍生规则tsfresh.featur原创 2022-05-11 13:47:36 · 2845 阅读 · 0 评论