在本案例中,我们通过各类广告渠道90天内额日均UV,平均注册率、平均搜索率、访问深度、平均停留时长、订单转化率、投放时间、素材类型、广告类型、合作方式、广告尺寸和广告卖点等特征,将渠道分类,找出每类渠道的重点特征,为加下来的业务讨论和数据分析提供支持。
导入分析过程所需类库
import pandas as pd import matplotlib.pyplot as pltimport matplotlib,osimport numpy as npimport seaborn as snsfrom sklearn.preprocessing import OneHotEncoder #文本向量化from sklearn.preprocessing import MinMaxScaler #数据标准化from sklearn.cluster import KMeans #聚类算法模型from sklearn.metrics import silhouette_score #轮廓系数import warningswarnings.filterwarnings("ignore")matplotlib.rcParams['font.sans-serif'] = ['SimHei']matplotlib.rcParams['axes.unicode_minus']=Falsesns.set(font='SimHei')
导入原始数据
data = pd.read_csv('ad_performance.csv').iloc[:,1:]data.head()
查看数据基本信息
print("\n"+"{:*^40}".format(' Data Info ')+"\n")print(data.info())print("\n"+"{:*^40}".format(' Null ')+"\n")print(data.isnull().sum())print("\n"+"{:*^40}".format(' Duplicated ')+"\n")print(data.duplicated().value_counts())print("\n"+"{:*^40}".format(' Shape ')+"\n")print(data.shape)out:************** Data Info ***************RangeIndex: 889 entries, 0 to 888Data columns (total 13 columns):渠道代号 889 non-null object日均UV 889 non-null float64平均注册率 889 non-null float64平均搜索量 889 non-null float64访问深度 889 non-null float64平均停留时间 887 non-null float64订单转化率 889 non-null float64投放总时间 889 non-null int64素材类型 889 non-null object广告类型 889 non-null object合作方式 889 non-null