Step 0. 项目介绍
本案例的业务场景:
假如你们公司投放广告的渠道很多,每个渠道的客户性质也可能不同,比如在优酷视频投广告和今日头条投放广告,效果可能会有差异。现在需要对广告效果分析实现有针对性的广告效果测量和优化工作。本案例,通过各类广告渠道90天内额日均UV,平均注册率、平均搜索率、访问深度、平均停留时长、订单转化率、投放时间、素材类型、广告类型、合作方式、广告尺寸和广告卖点等特征,将渠道分类,找出每类渠道的重点特征,为加下来的业务讨论和数据分析提供支持。
Step 1. 导入模块
In [23]:
import pandas as pd import numpy as np import plotly.graph_objects as go import plotly.express as px from sklearn.preprocessing import MinMaxScaler,OneHotEncoder from sklearn.metrics import silhouette_score # 导入轮廓系数指标 from sklearn.cluster import KMeans # KMeans模块 import warnings from pandas.core.common import SettingWithCopyWarning warnings.filterwarnings('ignore', category=SettingWithCopyWarning)Step 2. 数据概览
In [3]:
raw_data = pd.read_csv(r'/home/kesci/input/guanggao2482/ad_performance.csv') raw_data.head()Out[3]:
Unnamed: 0 渠道代号 日均UV 平均注册率 平均搜索量 访问深度 平均停留时间 订单转化率 投放总时间 素材类型 广告类型 合作方式 广告尺寸 广告卖点 0 0 A203 3.69 0.0071 0.0214 2.3071 419.77 0.0258 20 jpg banner roi 140*40 打折 1 1 A387 178.70 0.0040 0.0324 2.0489 157.94 0.0030 19 jpg banner cpc 140*40 满减 2 2 A388 91.77 0.0022 0.0530 1.8771 357.93 0.0026 4 jpg banner cpc 140*40 满减 3 3 A389 1.09 0.0074 0.3382 4.2426 364.07 0.0153 10 jpg banner cpc 140*40 满减 4 4 A390 3.37 0.0028 0.1740 2.1934 313.34 0.0007 30 jpg banner cpc 140*40 满减 In [27]:
print("——" * 10) print('数据集存在重复值个数:') print(raw_data.duplicated().sum()) print("——" * 10) print('数据集缺失值情况:') print(raw_data.isna().sum()) print("——" * 10) print('数据集各字段类型:') print(raw_data.dtypes) print("——" * 10) print('数据总体概览:') print(raw_data.info())———————————————————— 数据集存在重复值个数: 0 ———————————————————— 数据集缺失值情况: 渠道代号 0 日均UV 0 平均注册率 0 平均搜索量 0 访问深度 0 平均停留时间 2 订单转化率 0 投放总时间 0 素材类型 0 广告类型 0 合作方式 0 广告尺寸 0 广告卖点 0 dtype: int64 ———————————————————— 数据集各字段类型: 渠道代号 object 日均UV float64 平均注册率 float64 平均搜索量 float64 访问深度 float64 平均停留时间 float64 订单转化率 float64 投放总时间 int64 素材类型 object 广告类型 object 合作方式 object 广告尺寸 object 广告卖点 object dtype: object ———————————————————— 数据总体概览: <class 'pandas.core.frame.DataFrame'> RangeIndex: 889 entries, 0 to 888 Data columns (total 13 columns): 渠道代号 889 non-null object 日均UV 889 non-null float64 平均注册率 889 non-null float64 平均搜索量 889 non-null float64 访问深度 889 non-null float64 平均停留时间 887 non-null float64 订单转化率 889 non-null float64 投放总时间 889 non-null int64 素材类型 889 non-null object 广告类型 889 non-null object 合作方式 889 non-null object 广告尺寸 889 non-null object 广告卖点 889 non-null object dtypes: float64(6), int64(1), object(6) memory usage: 90.4+ KB None数据维度概况
除了渠道唯一标识,共12个维度,889行,有缺失值,有异常值。数据13个维度介绍
1、渠道代号:渠道唯一标识
2、日均UV:每天的独立访问量
3、平均注册率=日均注册用户数/平均每日访问量
4、平均搜索量:每个访问的搜索量
5、访问深度:总页面浏览量/平均每天的访问量
Python-K-Means聚类分析广告效果
最新推荐文章于 2025-02-17 23:42:47 发布