背景:
所有业务都会面对“为什么涨、为什么降、原因是什么?”这种简单粗暴又不易定位的业务问题。为了找出数据发生异动的原因,业务人员会通过使用多维查询、dashboard等数据产品锁定问题,再辅助人工分析查找问题原因,这个过程通常需要花费很长时间。因此需要一款自动给出分析结论的自动化数据工具来解决上面的问题。
本次自动化数据工具将使用Python来实现自动化多维分析与分析报告(Word)输出
多维自动化分析开发步骤:
1、设置分析日期
2、读取分析数据源
3、选定要分析的维度
4、循环自动化多维分析
4.1 维度汇总
4.2 日期+维度笛卡尔积
4.3 同比匹配
4.4 变异系数
4.5 同比维度影响系数计算
4.6 同比Top3维度影响分析
5、输出分析结论
5.1 整体概况
5.2 异常波动影响贡献度Top3
6、保存生成word文档
示例:
GMV指标多维自动化分析
```python
# -*- coding: utf-8 -*-
# -*- coding: utf-8 -*-
import pandas as pd
from docx import Document
# 定义数据表格插入Doc文档函数
def df_toword(df):
t = document.add_table(df.shape[0]+1, df.shape[1])
for j in range(df.shape[-1]):
t.cell(0, j).text = df.columns[j]
for i in range(df.shape[0]):
for j in range(df.shape[-1]):
t.cell(i + 1, j).text = str(df.values[i, j])
# 新建一个文档
document = Document()
document.add_heading(u' 多维自动化分析报告 ', 0)
# 设置分析日期
analyse_date = pd.DataFrame({'stat_date':pd.date_range(start='20220221',end='20220227',freq='1D')})
analyse_date['stat_date_tongbi'] = pd.to_datetime(analyse_date['stat_date']) - pd.DateOffset(weeks=1)
analyse_date['key'] = 1
# 分析数据源
df = pd.read_csv(r'C:\Users\86188\Desktop\gmv_test.csv',engine='python',index_col=False)
df.stat_date = pd.to_datetime(df.stat_date)
# 选定要分析的维度
analyse_dim_group = ['platform','catgory']
## 自动化多维分析
for dim in analyse_dim_group:
print("分析维度:"+dim)
document.add_paragraph("分析维度:"+dim)
# 维度汇总
df_dim_group = df.groupby(['stat_date',dim],as_index=False).agg({'GMV': 'sum'}).round(2)
# 日期+维度笛卡尔积
analyse_dim = pd.DataFrame({dim:list(set(df[dim]))})
analyse_dim['key'] = 1
analyse_dim_merge = analyse_date.merge(analyse_dim,on='key')
# 同比匹配
analyse_data_merge = pd.merge(analyse_dim_merge,df_dim_group,on=['stat_date',dim],how='left')
df_dim_group.rename(columns={'stat_date':'stat_date_tongbi','GMV':'GMV_tongbi'},inplace=True)
analyse_data_merge = pd.merge(analyse_data_merge,df_dim_group,on=['stat_date_tongbi',dim],how='left')
analyse_data_merge = analyse_data_merge.fillna(0)
# 同比维度系数计算
analyse_data_merge = analyse_data_merge.groupby([dim],as_index=False).agg({'GMV': 'sum','GMV_tongbi': 'sum'}).round(2)
analyse_data_merge['GMV_diff'] = analyse_data_merge['GMV']-analyse_data_merge['GMV_tongbi']
analyse_data_merge['GMV_rate'] = ((analyse_data_merge['GMV']-analyse_data_merge['GMV_tongbi'])/analyse_data_merge['GMV_tongbi']).apply(lambda x: format(x, '.2%'))
total_gmv=analyse_data_merge['GMV'].sum()-analyse_data_merge['GMV_tongbi'].sum()
total_gmv_rate=(analyse_data_merge['GMV'].sum()-analyse_data_merge['GMV_tongbi'].sum())/analyse_data_merge['GMV_tongbi'].sum()
analyse_data_merge['GMV_per_rate']=analyse_data_merge['GMV_diff']/total_gmv
# analyse_data_merge.to_csv(r'C:\Users\86188\Desktop\analyse_result.csv',index=0,mode='a')
# 同比Top3维度影响分析
analyse_result=analyse_data_merge.sort_values(by='GMV_per_rate', ascending=False).head(5).round(2)
print(analyse_result)
document.add_paragraph("维度汇总明细:")
df_toword(analyse_result)
# 变异系数
CV = abs(analyse_result.describe()['GMV_diff']['std'] / analyse_result.describe()['GMV_diff']['mean'])
print(CV)
document.add_paragraph("变异系数:"+str(CV))
Top3_d1=list((analyse_result.iloc[0:3])[dim])
Top3_v1=list((analyse_result.iloc[0:3])['GMV_per_rate'])
#整体概况
total_analyse= "整体概况:总体下降 " + str(int(total_gmv)) + "同比下降" + format(total_gmv_rate, '.2%')
print(total_analyse)
document.add_paragraph(total_analyse)
# 异常波动影响贡献度Top3
dim_analyse="异常波动影响贡献度Top3:" + Top3_d1[0] + "/" + Top3_d1[1] + "/" + Top3_d1[2]+";影响系数:" + format(Top3_v1[0], '0') + "/" + format(Top3_v1[1], '0') + "/" + format(Top3_v1[2], '0')
print(dim_analyse)
document.add_paragraph(dim_analyse)
# 保存生成word文档
document.save(r'C:\Users\86188\Desktop\多维自动化分析报告.docx')