房价模型构建实战(一)——赛题分析

本文探讨了在房价预测模型构建中对数据的深入理解,包括数据集导入、基本信息查看、缺失值分析、特征分布等关键步骤。通过分析,识别了如‘pv’、‘uv’、‘tradeMoney’等重要变量,并发现了如‘rentType’、‘houseType’等具有潜在影响力的特征。这些预处理工作为后续的模型训练和特征工程奠定了基础。
摘要由CSDN通过智能技术生成

认识数据


在构建模型前或者在数据分析前需要对数据有个清楚的认识,无论是对于数据竞赛还是企业项目,对于数据的认识往往是第一位的,这直接影响到最终的结果。本文是利用一个竞赛向大家进行介绍的,故根据比赛背景介绍如何对数据进行认识。了解比赛的背景、知道你要构建的模型种类。比赛要求参赛选手根据给定的数据集,建立模型,预测房屋租金。数据集中的数据类别包括租赁房源、小区、二手房、配套、新房、土地、人口、客户、真实租金等。这是典型的回归预测。

 

1、数据集导入

#导入warnings包,利用过滤器来实现忽略警告语句。
import warnings
warnings.filterwarnings('ignore')

# GBDT
from sklearn.ensemble import GradientBoostingRegressor
# XGBoost
import xgboost as xgb
# LightGBM
import lightgbm as lgb

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
#载入数据
data_train = pd.read_csv('./dataset/train_data.csv')
data_train['Type'] = 'Train'
data_test = pd.read_csv('./dataset/test_a.csv')
data_test['Type'] = 'Test'
data_all = pd.concat([data_train, data_test], ignore_index=T
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值