python进行广告分析-CSDN博客

本文链接：https://blog.csdn.net/m0_59236127/article/details/136293688

本文详细介绍了如何使用Python进行数据预处理，包括数据加载、缺失值处理、相关性计算、数据标准化（Min-Max缩放）、独热编码和特征数字化。最后通过KMeans聚类算法，利用平均轮廓系数确定最佳聚类数，对广告数据分析提供实用技术指导。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、python进行数据预处理

import pandas as pd
import numpy as np
pd.set_option('display.max_columns',None)
pd.set_option('display.max_rows',None)
pd.set_option('max_colwidth',30)

获取数据

data = pd.read_csv("ad_performance.csv",index_col=0)
# 对数据进行审查
print('{:*^60}'.format('数据样本：统计描述'))
print(data.describe().round(4).T)

index_col 防止把索引放进统计数据

保留四位小数，并将结果进行转置

对缺失值的填充（均值）

print('{:*^60}'.format('缺失值：均值填充法'))
data = data.fillna(data.mean)

2.计算，合并:相关性

print('{:*^60}'.format('计算相关性：合并'))
print(data.corr().round(4).T)
data = data.drop(['平均停留时间'], axis=1)

data.drop([‘平均停留时间’], axis=1) 的作用是从数据集中删除名为 ‘平均停留时间’ 的列。axis=1: 表示删除列而不是行，因为axis=1表示操作的是列，而axis=0表示操作的是行。进行相关性分析的目的在于理解数据中变量之间的关系，这对于选择合适的特征、优化模型、发现潜在因果关系等方面

3.数据标准化：：归一化Min-Max，0-1区间

数据标准化的目的是为了确保不同特征的数值范围一致，避免因尺度差异而导致的模型训练问题。当特征的值差异很大时，一些机器学习算法可能会偏向于影响更大的特征，而对其他特征的影响较小，从而影响模型性能。通过标准化，我们将所有特征的值缩放到相似的范围内，有助于提高模型训练的稳定性、速度和性能，确保模型能够更准确地学习并适应不同特征的贡献。

from sklearn.preprocessing import MinMaxScaler
matrix = data.iloc[:,1:7]
min_max_