数据分析进阶-基于tsfresh的多变量时间序列聚类

前言

上一篇博客主要尝试了基于tslearn的单变量时间序列聚类,多变量时间序列的方法经过一番搜索也没有找到合适的方式,因此考虑借助强大的时间序列特征提取工具tsfresh与KMeans尝试多变量时间序列的聚类实验

基于日消费总额+日消费次数的时间序列聚类

一、tsfresh

tsfresh可以提取的时间序列特征数量相当全面,其中对特征的中文解读建议查看以下两篇博客:

  • https://www.jianshu.com/p/de2f7d333b9f
  • https://www.jianshu.com/p/073f2c0dab39

对具体如何使用还是得好好地啃官方文档:

  • https://tsfresh.readthedocs.io/en/latest/
二、实验说明

实验利用日消费总额+日消费次数时间序列两个变量,首先基于tsfresh提取相关特征并利用Kmeans完成聚类

1.输入数据

源数据的格式如下:user, type, date1, date2, date3, …, daten,tsfresh对输入数据的格式有要求,所以首先需要对数据进行处理

import pandas as pd
def transform_data():
    """
    转换数据格式,获取tsfresh所需的输入
    :return:
    """
    data = pd.read_csv('data.csv')
    data = data.set_index(["USER", 
  • 3
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 19
    评论
评论 19
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值