数据介绍
本案例的业务场景:
假如你们公司投放广告的渠道很多,每个渠道的客户性质也可能不同,比如在优酷视频投广告和今日头条投放广告,效果可能会有差异。现在需要对广告效果分析实现有针对性的广告效果测量和优化工作。
数据13个维度介绍
1、渠道代号:渠道唯一标识
2、日均UV:每天的独立访问量
3、平均注册率=日均注册用户数/平均每日访问量
4、平均搜索量:每个访问的搜索量
5、访问深度:总页面浏览量/平均每天的访问量
6、平均停留时长=总停留时长/平均每天的访问量
7、订单转化率=总订单数量/平均每天的访客量
8、投放时间:每个广告在外投放的天数
9、素材类型:'jpg' 'swf' 'gif' 'sp'
10、广告类型:banner、tips、不确定、横幅、暂停
11、合作方式:'roi' 'cpc' 'cpm' 'cpd'
12、广告尺寸:'14040' '308388' '450300' '60090' '480360' '960126' '900120'
'390270'
13、广告卖点:打折、满减、满赠、秒杀、直降、满返
导入库,导入数据
import pandas as pd
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
from sklearn.preprocessing import MinMaxScaler,OneHotEncoder #标准差标准化,独热编码
from sklearn.metrics import silhouette_score # 导入轮廓系数指标
from sklearn.cluster import KMeans # KMeans模块
%matplotlib inline
## 设置属性防止中文乱码
mpl.rcParams['font.sans-serif'] = [u'SimHei']
mpl.rcParams['axes.unicode_minus'] = False
f=open('E://Python练手//一些数据//ad_performance.csv',encoding = 'utf-8')
ad_data = pd.read_csv(f).iloc[:,1:]
ad_data.head()
数据审查
查看基本状态
ad_data.head()
ad_data.info() #打印数据类型
RangeIndex: 889 entries, 0 to 888
Data columns (total 13 columns):
渠道代号 889 non-null object
日均UV 889 non-null float64
平均注册率 889 non-null float64
平均搜索量 889 non-null float64
访问深度 889 non-null float64
平均停留时间 887 non-null float64
订单转化率 889 non-null float64
投放总时间 889 non-null int64
素材类型 889 non-null object
广告类型 889 non-null object
合作方式 889 non-null object
广告尺寸 889 non-null object
广告卖点 889 non-null object
dtypes: float64(6), int64(1), object(6)
memory usage: 90.4+ KB
ad_data.describe().round(2).T #打印原数据基本描述信息
上面代码,分别展示前五条数据、所有特征的数据类型、以及数值型特征的五值分布
—————————————————————————————