目录
背景及思路
背景介绍
对于宝洁这样的快消品企业,重要的数据应用:
1.对商超门店的销售额做出精准预测
2.量化自身所能控制的各种促销因素所能产生的效果
3.对营销资源做出合理规划
聚合数据
在本例中,通过回归分析实现对各类因素投入产出对比出评估
分析数据
电视广告、线上、线下、门店内。微信渠道等促销投入和销售额
下列数据均以月为观测窗口:
- Revenue 门店销售额
- Reach 微信推送次数
- Local_tv本地电视广告投入
- Online 线上广告投入
- Instore 门店内海报成列等投入
- Person 门店销售人员投入
- Event 促销事件:cobranding 品牌联合促销、holiday 节假日、special 门店特别促销、non-event无促销活动
分析流程
数据概况分析,单变量分析,相关与可视化,回归模型
进行分析处理
1.1调包和读取数据
import pandas as pd
#读取数据
#index_col=0 去除Unnamed=0的数据
store=pd.read_csv('w2_store_rev.csv',index_col=0)
store.head()
输出结果
store.info()
输出属性
<class 'pandas.core.frame.DataFrame'>
Int64Index: 985 entries, 845 to 26
Data columns (total 7 columns):
revenue 985 non-null float64
reach 985 non-null int64
local_tv 929 non-null float64
online 985 non-null int64
instore 985 non-null int64
person 985 non-null int64
event 985 non-null object
dtypes: float64(2), int64(4), object(1)
memory usage: 61.6+ KB
从基本数据可以看出
- event是object类似string
- local_tv有56个空值
即类别型变量,在线性回归里面是没办法处理这个问题的
解决问题一,event类型
先看event的具体值
store.event.unique()
输出结果
array(['non_event', 'special', 'cobranding', 'holiday'], dtype=object)
查看着几个类别分别对revenue的影响
- 这几个类别对应的revenue
store.groupby('event')['revenue'].describe()
- 这几个类别对应的local_tv
store.groupby('event')['local_tv'].describe()
处理event变量,将其变为数字型变量
store=pd.get_dummies(store)
store.info()
输出结果
<class 'pandas.core.frame.DataFrame'>
Int64Index: 985 entries, 845 to 26
Data columns (total 10 columns):
revenue 985 non-null float64
reach 985 non-null int64
local_tv 929 non-null float64
online 985 non-null int64
instore 985 non-null int64
person