Python-K-Means聚类分析广告效果

最新推荐文章于 2025-02-17 23:42:47 发布

暴躁的秋秋

最新推荐文章于 2025-02-17 23:42:47 发布

阅读量1.5k

点赞数 20

文章标签： python kmeans 开发语言

本文链接：https://blog.csdn.net/m0_67431719/article/details/135714062

版权

Step 0. 项目介绍

本案例的业务场景：
假如你们公司投放广告的渠道很多，每个渠道的客户性质也可能不同，比如在优酷视频投广告和今日头条投放广告，效果可能会有差异。现在需要对广告效果分析实现有针对性的广告效果测量和优化工作。

本案例，通过各类广告渠道90天内额日均UV，平均注册率、平均搜索率、访问深度、平均停留时长、订单转化率、投放时间、素材类型、广告类型、合作方式、广告尺寸和广告卖点等特征，将渠道分类，找出每类渠道的重点特征，为加下来的业务讨论和数据分析提供支持。

Step 1. 导入模块

In [23]:
import pandas as pd
import numpy as np 
import plotly.graph_objects as go
import plotly.express as px

from sklearn.preprocessing import MinMaxScaler,OneHotEncoder 
from sklearn.metrics import silhouette_score # 导入轮廓系数指标
from sklearn.cluster import KMeans # KMeans模块

import warnings
from pandas.core.common import SettingWithCopyWarning

warnings.filterwarnings('ignore', category=SettingWithCopyWarning)
Step 2. 数据概览

In [3]:
raw_data = pd.read_csv(r'/home/kesci/input/guanggao2482/ad_performance.csv')
raw_data.head()
Out[3]:

Unnamed: 0 渠道代号日均UV 平均注册率平均搜索量访问深度平均停留时间订单转化率投放总时间素材类型广告类型合作方式广告尺寸广告卖点

0 0 A203 3.69 0.0071 0.0214 2.3071 419.77 0.0258 20 jpg banner roi 140*40 打折

1 1 A387 178.70 0.0040 0.0324 2.0489 157.94 0.0030 19 jpg banner cpc 140*40 满减

2 2 A388 91.77 0.0022 0.0530 1.8771 357.93 0.0026 4 jpg banner cpc 140*40 满减

3 3 A389 1.09 0.0074 0.3382 4.2426 364.07 0.0153 10 jpg banner cpc 140*40 满减

4 4 A390 3.37 0.0028 0.1740 2.1934 313.34 0.0007 30 jpg banner cpc 140*40 满减

In [27]:
print("——" * 10)
print('数据集存在重复值个数：')
print(raw_data.duplicated().sum())
print("——" * 10)
print('数据集缺失值情况：')
print(raw_data.isna().sum())
print("——" * 10)
print('数据集各字段类型：')
print(raw_data.dtypes)
print("——" * 10)
print('数据总体概览：')
print(raw_data.info())
————————————————————
数据集存在重复值个数：
0
————————————————————
数据集缺失值情况：
渠道代号      0
日均UV      0
平均注册率     0
平均搜索量     0
访问深度      0
平均停留时间    2
订单转化率     0
投放总时间     0
素材类型      0
广告类型      0
合作方式      0
广告尺寸      0
广告卖点      0
dtype: int64
————————————————————
数据集各字段类型：
渠道代号       object
日均UV      float64
平均注册率     float64
平均搜索量     float64
访问深度      float64
平均停留时间    float64
订单转化率     float64
投放总时间       int64
素材类型       object
广告类型       object
合作方式       object
广告尺寸       object
广告卖点       object
dtype: object
————————————————————
数据总体概览：
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 889 entries, 0 to 888
Data columns (total 13 columns):
渠道代号      889 non-null object
日均UV      889 non-null float64
平均注册率     889 non-null float64
平均搜索量     889 non-null float64
访问深度      889 non-null float64
平均停留时间    887 non-null float64
订单转化率     889 non-null float64
投放总时间     889 non-null int64
素材类型      889 non-null object
广告类型      889 non-null object
合作方式      889 non-null object
广告尺寸      889 non-null object
广告卖点      889 non-null object
dtypes: float64(6), int64(1), object(6)
memory usage: 90.4+ KB
None
数据维度概况
除了渠道唯一标识，共12个维度，889行，有缺失值，有异常值。

数据13个维度介绍
1、渠道代号：渠道唯一标识
2、日均UV：每天的独立访问量
3、平均注册率=日均注册用户数/平均每日访问量
4、平均搜索量：每个访问的搜索量
5、访问深度：总页面浏览量/平均每天的访问量

	Unnamed: 0	渠道代号	日均UV	平均注册率	平均搜索量	访问深度	平均停留时间	订单转化率	投放总时间	素材类型	广告类型	合作方式	广告尺寸	广告卖点
0	0	A203	3.69	0.0071	0.0214	2.3071	419.77	0.0258	20	jpg	banner	roi	140*40	打折
1	1	A387	178.70	0.0040	0.0324	2.0489	157.94	0.0030	19	jpg	banner	cpc	140*40	满减
2	2	A388	91.77	0.0022	0.0530	1.8771	357.93	0.0026	4	jpg	banner	cpc	140*40	满减
3	3	A389	1.09	0.0074	0.3382	4.2426	364.07	0.0153	10	jpg	banner	cpc	140*40	满减
4	4	A390	3.37	0.0028	0.1740	2.1934	313.34	0.0007	30	jpg	banner	cpc	140*40	满减