IDE:Jupyter Notebook
编程环境:Python3.6+Pytorch1.5
一.Kaggle介绍
Kaggle是⼀个著名的供机器学习爱好者交流的平台。下图展示了Kaggle⽹站的⾸⻚。
我们可以在房价预测⽐赛的⽹⻚上了解⽐赛信息和参赛者成绩,也可以下载数据集并提交⾃⼰的预测结果。该⽐赛的⽹⻚地址是
https://www.kaggle.com/c/house-prices-advanced-regression-techniques
基于竞赛方所提供的爱荷华州埃姆斯的住宅数据信息,预测每间房屋的销售价格。
很明显这是一个回归问题!
二.获取和读取数据集
⽐赛数据分为训练数据集和测试数据集。两个数据集都包括每栋房⼦的特征,如街道类型、建造年份、房顶类型、地下室状况等特征值。这些特征值有连续的数字、离散的标签甚⾄是缺失值“na”。只有训练数据集包括了每栋房⼦的价格,也就是标签。我们可以访问⽐赛⽹⻚,点击“Data”标签,并下载这些数据集。
1.安装并导入必要的依赖库
%matplotlib inline
import torch
import torch.nn as nn
import numpy as np
import pandas as pd
import sys
print(torch.__version__)
torch.set_default_tensor_type(torch.FloatTensor)
2.假设解压后的数据位于 data/kaggle_house/ ⽬录,它包括两个csv⽂件。下⾯使⽤ pandas读取这两个⽂件。
train_data = pd.read_csv('data/kaggle_house/train.csv') # 训练集包括1460个样本,80个特征和1个标签
test_data = pd.read_csv('data/kaggle_house/test.csv') # 测试集包括1459个样本和80个特征
3.查看文件内容
# 查看训练集前4个样本
train_data.iloc[0:4]
输出:
4.将所有的训练