train_test_split()旨在获取数据集并将其分成两个块,即训练集和测试集。在您的例子中,您已经将数据分成两个块,分别放在单独的csv文件中。然后,您将获取列车数据并将其再次拆分为train和{},这是验证的缩写(本质上是测试或验证数据)。在
您可能需要对完整的训练数据集执行model.fit,然后再次调用model.predict测试集。不需要调用train_test_split()。在
编辑:
我可能错了。在查看竞争页面时,我意识到测试集不包括基本真实值。不能使用这些数据来验证模型的准确性。在这种情况下,我认为将原始的训练数据集分成训练和验证是有意义的。由于您只在列车部分拟合模型,因此模型的验证集仍然不可见。然后使用验证集中的已知值来验证模型的预测。在
测试集将只用于生成“新”预测,因为您没有基本真实值来验证。在
编辑(回应评论):
我没有这些数据集,也没有实际运行这段代码,但我建议如下所示。本质上,您需要像处理训练数据一样准备测试数据,然后按照输入验证集的方式将其输入模型。在import ...
def get_dataset(path):
data = pd.read_csv(path)
data['Sex'] = pd.factorize(data.Sex)[0]
filtered_titanic_data = data.dropna(axis=0)
return filtered_titanic_data
train_path = "C:\\Users\\Omar\\Downloads\\Titanic Data\\train.csv"
test_path = "C:\\U