kaggle房价预测特征意思_【实践系列】Kaggle入门:房价预测

IDE:Jupyter Notebook

编程环境:Python3.6+Pytorch1.5

33baa80493931fba0be16e1ed7bdca6d.png

本文目录: 一.Kaggle介绍 二.获取和读取数据集 三.预处理数据 四.训练模型 五.K折交叉验证 六.模型选择 七.预测并在Kaggle上提交结果 八.小结

一.Kaggle介绍

Kaggle是⼀个著名的供机器学习爱好者交流的平台。下图展示了Kaggle⽹站的⾸⻚。

be50a991d440d437b90a2342efb8419b.png

我们可以在房价预测⽐赛的⽹⻚上了解⽐赛信息和参赛者成绩,也可以下载数据集并提交⾃⼰的预测结果。该⽐赛的⽹⻚地址是 

https://www.kaggle.com/c/house-prices-advanced-regression-techniques

c67f2db72fc91063e4f255c29790ba66.png

基于竞赛方所提供的爱荷华州埃姆斯的住宅数据信息,预测每间房屋的销售价格。

很明显这是一个回归问题

二.获取和读取数据集

⽐赛数据分为训练数据集和测试数据集。两个数据集都包括每栋房⼦的特征,如街道类型、建造年份、房顶类型、地下室状况等特征值。这些特征值有连续的数字、离散的标签甚⾄是缺失值“na”。只有训练数据集包括了每栋房⼦的价格,也就是标签。我们可以访问⽐赛⽹⻚,点击“Data”标签,并下载这些数据集。

1.安装并导入必要的依赖库

%matplotlib inline
import torch
import torch.nn as nn
import numpy as np
import pandas as pd
import sys

print(torch.__version__)
torch.set_default_tensor_type(torch.FloatTensor)

2.假设解压后的数据位于 data/kaggle_house/ ⽬录,它包括两个csv⽂件。下⾯使⽤ pandas读取这两个⽂件。

train_data = pd.read_csv('data/kaggle_house/train.csv') # 训练集包括1460个样本,80个特征和1个标签
test_data = pd.read_csv('data/kaggle_house/test.csv') # 测试集包括1459个样本和80个特征

3.查看文件内容

# 查看训练集前4个样本
train_data.iloc[0:4]

输出:

51b1c6f1c3316575f8b5457be70abdbc.png

4.将所有的训练

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值