一、背景与目标
-
背景
某电商企业,有多个广告投放渠道,该企业希望通过之前的数据对每一个渠道进行分析评价,根据不同渠道的特征,有针对性地指定广告投放策略,实现利益的最大化 -
目标
基于K-Means算法,对不同的广告投放渠道进行聚类分析,找到不同渠道的特征,从而实现有针对性地进行广告投放。
二、分析思路
- 观察数据,对数据进行清洗
- 计算相关的指标
- 将不同数量级的数据缩放到同一数量级中,将文本数据进行虚拟编码,将其数字化
- 使用K-Means进行建模
三、数据的来源及数据的情况
- 数据来源:Kaggle — ad_performance
- 数据的情况:
(1)数据总量:共888条数据
(2)包含的字段:渠道代号、日均UV、平均注册率、平均搜索量、访问深度、平均停留时间、订单转化率、投放总时间、素材类型、广告类型、合作方式、广告尺寸、广告卖点
四、数据清洗
- 查看数据
import pandas as pd
# 设置显示格式
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
pd.set_option('max_colwidth', 30)
# 获取到数据
data = pd.read_csv("ad_performance.csv", index_col=0)
# 查看数据
print(data)
部分数据
渠道代号 日均UV 平均注册率 平均搜索量 访问深度 平均停留时间 订单转化率 投放总时间 素材类型 \
0 A203 3.69 0.0071 0.0214 2.3071