用泰坦尼克号年龄和船费做线性回归,看两者是否有关联
首先age中确实两百多项,补上平均年龄。
part_train_data = pd.read_csv('train1.csv',usecols=['Age','Fare','SibSp'])
part_train_data['Age'] = part_train_data['Age'].fillna(part_train_data['Age'].median())
sns.regplot(x="Age",y="Fare",data=part_train_data)
效果如图所示,可以看到大于300只有两个数据,使得线段不是十分明显。
删除大于300的数据后,重新绘制图像