这两天用学了主成分分析,用的是PCA。主成分分析就是降维,通过线性组合,把多个原始变量合并成若干个主成分,这样每个主成分都变成原始变量的线性组合。所以你想看具体哪个特征对结果的影响大,通过PCA是看不到的。但PCA能把原来的10+数据特征转变为几个,实现过程如下:
导入数据:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
inputfile = 'C:/Users/xiaom/Desktop/data/online_shoppers_intention.csv'
df = pd.read_csv(inputfile)
这是后面的几列
1、数据处理
只要购买客户数据,对VisitorType、weekend数据做处理,转换为0,1;再删除不要的字段
#只要购买客户的数据
df = df[df['Revenue'] == True]
df['VisitorType'] = np.where(df['VisitorType'] == 'Returning_Visitor',1,0)
df['workday'] = np.where(df['Weekend']==True,0,1)
df.drop(['Weekend','