1、python进行数据预处理
import pandas as pd
import numpy as np
pd.set_option('display.max_columns',None)
pd.set_option('display.max_rows',None)
pd.set_option('max_colwidth',30)
获取数据
data = pd.read_csv("ad_performance.csv",index_col=0)
# 对数据进行审查
print('{:*^60}'.format('数据样本:统计描述'))
print(data.describe().round(4).T)
index_col 防止把索引放进统计数据
保留四位小数,并将结果进行转置
对缺失值的填充(均值)
print('{:*^60}'.format('缺失值:均值填充法'))
data = data.fillna(data.mean)
2.计算,合并:相关性
print('{:*^60}'.format('计算相关性:合并'))
print(data.corr().round(4).T)
data = data.drop(['平均停留时间'], axis=1)
data.drop([‘平均停留时间’], axis=1) 的作用是从数据集中删除名为 ‘平均停留时间’ 的列。axis=1: 表示删除列而不是