python进行广告分析

本文详细介绍了如何使用Python进行数据预处理,包括数据加载、缺失值处理、相关性计算、数据标准化(Min-Max缩放)、独热编码和特征数字化。最后通过KMeans聚类算法,利用平均轮廓系数确定最佳聚类数,对广告数据分析提供实用技术指导。
摘要由CSDN通过智能技术生成

1、python进行数据预处理

import pandas as pd
import numpy as np
pd.set_option('display.max_columns',None)
pd.set_option('display.max_rows',None)
pd.set_option('max_colwidth',30)

获取数据

data = pd.read_csv("ad_performance.csv",index_col=0)
# 对数据进行审查
print('{:*^60}'.format('数据样本:统计描述'))
print(data.describe().round(4).T)

index_col 防止把索引放进统计数据

保留四位小数,并将结果进行转置

对缺失值的填充(均值)

print('{:*^60}'.format('缺失值:均值填充法'))
data = data.fillna(data.mean)

2.计算,合并:相关性

print('{:*^60}'.format('计算相关性:合并'))
print(data.corr().round(4).T)
data = data.drop(['平均停留时间'], axis=1)

data.drop([‘平均停留时间’], axis=1) 的作用是从数据集中删除名为 ‘平均停留时间’ 的列。axis=1: 表示删除列而不是行,因为axis=1表示操作的是列,而axis=0表示操作的是行。进行相关性分析的目的在于理解数据中变量之间的关系,这对于选择合适的特征、优化模型、发现潜在因果关系等方面

3.数据标准化::归一化Min-Max,0-1区间

数据标准化的目的是为了确保不同特征的数值范围一致,避免因尺度差异而导致的模型训练问题。当特征的值差异很大时,一些机器学习算法可能会偏向于影响更大的特征,而对其他特征的影响较小,从而影响模型性能。通过标准化,我们将所有特征的值缩放到相似的范围内,有助于提高模型训练的稳定性、速度和性能,确保模型能够更准确地学习并适应不同特征的贡献。

from sklearn.preprocessing import MinMaxScaler
matrix = data.iloc[:,1:7]
min_max_
  • 21
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值