备注:'Advertising.csv'是一个包含200行的商品信息数据(下载地址:在我的资源页面https://download.csdn.net/download/mico_cmm/10952846)。
下面使用该数据进行多元回归分析。
# 多元回归分析
# 加载数据
import pandas as pd
data=pd.read_csv('Advertising.csv')
data.head() # 显示前五行
# print(data)
# 数据特征分析
import matplotlib.pyplot as plt
fig,axes=plt.subplots(1,3,figsize=(9,3))
for n in range(3):
axes[n].scatter(data.ix[:,n+1],data.ix[:,4])
feature_cols=['TV','Radio','Newspaper']
X=data[feature_cols]
print(X.head()) # 打印前五行数据
print(type(X)) # X的数据类型
print(X.shape) # X的行数、列数
y=data['Sales']
print(y.head())
# 使用交叉验证
from sklearn.model_selection import train_test_split
# sklearn.cross_validation是sklearn老版本的模块,新版本都迁移到了sklearn.model_selection
X_train,X_test,y_train,y_test=train_test_split(X,y,random_state=1)
print(X_train.shape)