#统计建模 import os print(os.getcwd()) import pandas as pd test = pd.read_csv('D:/Titanic data/test.csv',index_col=0) print(test.head()) #查看数据形状(行数和列数) test.shape print(test.shape) #查看数据的简要信息 test.info() print(test.info()) #查看列名 print(test.columns) #查看描述性统计数据 test.describe() print(test.describe()) #数据可视化 import matplotlib.pyplot as plt # %matplotlib inline # plt.rcParams['font.family'] = 'Heiti TC' plt.scatter(test['Pclass'],test['Age']) plt.title('Pclass和年龄的可视化') plt.xlabel('Pclass') plt.ylabel('Age') plt.show() #特征矩阵(x)的生成 x = test['Pclass'] print(x) y = test['Age'] print(y) #模型的训练 import statsmodels.api as sm x = sm.add_constant(x) print(x) #构建模型 myModel = sm.OLS(y,x) #模型拟合 results = myModel.fit() print(results.summary()) #回归系数 results.params #残差 results.resid #...... y_predict = results.predict() import matplotlib.pyplot as plt plt.plot(test['Pclass'],test['Age'],'o') plt.plot(test['Pclass'],y_predict) plt.title('比例分析') plt.xlabel('Pclass') plt.ylabel('Age') plt.show()