工作中常常做各种交叉变动分析,需要快速出结论,如果没有现成的BI平台支持,还有以下方法可以实现:
1)excel(适用于小数据量级分析)
2)sql(适用于数据量较大的简单分析)
3)python(依托于丰富的第三方开源库,可以根据业务需求,较为灵活地处理业务数据,进行分析、可视化呈现。)
举个简单栗子:
假设某客户某段时间内购买规模下跌较大,可以从产品类型、新购/退还/组件变配去交叉分析,尽可能从数据特征上追溯出客户行为特征(是什么?),结合其它客户业务背景,总结出导致规模下跌的主要原因(为什么?)以及应对策略(怎么做)。
简单的变动分析代码如下,读取数据源CSV,会输出一个变动数据明细excel(包含新购/退还/组件1变配/组件2变配 共4个sheet):
import pandas as pd
import numpy as np
readPath1 = "D:\\工作\\date1.csv"
readPath2 = "D:\\工作\\date2.csv"
outputDir="D:\\工作\\变动分析\\"
#读取两个日期的明细数据,指定读取字段的数据类型
data1=pd.read_csv(readPath1,
sep=',',
usecols=["id", "category1", "category2", "value1", "value2", "value3"],
dtype={
"id": np.str, "category1": np.str,"category2": np.str, "value1": np.int32, "value2": np.float32,"value3": np.float32},
encoding = 'gb18030')
data2=pd.read_csv(readPath2,
sep=',',
usecols=["id", "category1", "category2", "value1", "value2", "value3"],
dtype={