DataCastle租金预测数据竞赛个人总结2

最新推荐文章于 2023-12-14 16:19:16 发布

buttogo

最新推荐文章于 2023-12-14 16:19:16 发布

阅读量1.8k

点赞数 1

分类专栏：数据分析文章标签： python 机器学习数据分析

本文链接：https://blog.csdn.net/buttogo/article/details/108547734

版权

数据分析专栏收录该内容

3 篇文章 3 订阅

订阅专栏

DataCastle租金预测数据竞赛个人总结2

竞赛链接
赛题任务
给定房屋租金价格的各个影响因素数据，建立模型预测国内某城市房屋的租金价格。训练集大小为196,539，测试集大小为56,279。
赛题详细介绍以及基础的数据预处理可跳转至个人总结1。
Baseline

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus']=False
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

import lightgbm as lgb
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# 读取数据
train = pd.read_csv(r"C:\Users\Windows\Desktop\train.csv")
test = pd.read_csv(r"C:\Users\Windows\Desktop\test_noLabel.csv")

# 对object类型的特征“房屋朝向”进行离散化编码处理
orientation_headers = ['东', '南', '西', '北',
                       '东南', '西南', '西北', '东北']
def fill_orientation(item, orientation):
    x = item.split(' ')
    return 1 if orientation in x else 0
 
for i in orientation_headers:
    train[i] = train['房屋朝向'].apply(lambda x: fill_orientation(x, i))

for i in orientation_headers:
    test[i] = test['房屋朝向'].apply(lambda x: fill_orientation(x, i))
    
train.drop('房屋朝向', axis=1, inplace=True)
test.drop('房屋朝向', axis=1, inplace=True)

# 删除异常值
train = train.drop(train[train['房屋面积']>1400].index)

# 通过缺失值分析，发现地铁线路、地铁站点和距离缺失比例相同，进一步观察可知三者缺失位置也完全一致，可以猜测缺失原因为该房源周围没有地铁线路
# 将缺失的地铁线路和地铁站点填充为0
train['地铁线路'] = train['地铁线路'].fillna(0)
test['地铁线路'] = test['地铁线路'].fillna(0)
train['地铁站点'] = train['地铁站点'].fillna(0)
test['地铁站点'] = test['地铁站点'].fillna(0)

# 发现数据是连续的，但其中缺少5，可能是数据输入遗漏掉了，因此填充缺失值为5
train['区'] = train['区'].fillna(5)
test['区'] = test['区'].fillna(5)
# 位置中缺少76，同理填充缺失值为76
train['位置'] = train['位置'].fillna(76)
test['位置'] = test['位置'].fillna(76)

# 进行排序后，使用前一条数据对小区房屋出租数量进行填充
train = train.sort_values(by=['小区名', '楼层', '时间'], ascending=(True, True, True))
test = test.sort_values(by=['小区名', '楼层', '时间'], ascending=(True, True, True))

train['小区房屋出租数量'] = train['小区房屋出租数量'].fillna(method='pad')
test['小区房屋出租数量'] = test['小区房屋出租数量'].fillna(method='pad')

data = pd.concat([train, test], axis=0, ignore_index=True)

# 使用小区房屋与地铁站的平均距离对同一小区房屋到地铁站距离进行填充
xiaoqu_dis = data.groupby('小区名')['距离'].mean()
dict_xiaoqu_dis = {'小区名':xiaoqu_dis.index,'平均距离':xiaoqu_dis.values}
df_xiaoqu_dis = pd.DataFrame(dict_xiaoqu_dis)

data = data.merge(df_xiaoqu_dis, on='小区名',how='left')
data['距离'] = data['距离'].fillna(data['平均距离'])

# 用小区地铁线路填充同一小区地铁新路的缺失值
xiaqu_sub_line = data.groupby('小区名')['地铁线路'].max()
dict_xiaqu_sub_line = {'小区名':xiaqu_sub_line.index,'小区地铁线路':xiaqu_sub_line.values}
df_xiaqu_sub_line = pd.DataFrame(dict_xiaqu_sub_line)

data = data.merge(df_xiaqu_sub_line, on='小区名',how='left')
data['地铁线路'] = data['小区地铁线路']

# 用小区地铁站点填充同一小区地铁站点的缺失值
xiaqu_sub = data.groupby('小区名')['地铁站点'].max()
dict_xiaqu_sub = {'小区名':xiaqu_sub.index,'小区地铁站点':xiaqu_sub.values}
df_xiaqu_sub = pd.DataFrame(dict_xiaqu_sub)

data = data.merge(df_xiaqu_sub, on='小区名',how='left')
data['地铁站点'] = data['小区地铁站点']

data.drop(['平均距离','小区地铁线路','小区地铁站点'],axis=1,inplace=True)

# 对其他缺失值进行固定值填充
data['距离'] = data['距离'].fillna(0)
data['居住状态'] = data['居住状态'].fillna(0)
data['装修情况'] = data['装修情况'].fillna(0)
data['出租方式'] = data['出租方式'].fillna(2)

# 构造新的特征
data['房间总数'] = data['卫的数量'] + data['卧室数量'] + data['厅的数量']
data['卧和卫'] = data['卫的数量'] + data['卧室数量']
data['卧和厅'] = data['卧室数量'] + data['厅的数量']

data['楼层比'] = (data['楼层'] + 1) / data['总楼层']

data['卫的面积'] = data['房屋面积']*(data['卫的数量']/data['房间总数'])
data['卧室面积'] = data['房屋面积']*(data['卧室数量']/data['房间总数'])
data['厅的面积'] = data['房屋面积']*(data['厅的数量']/data['房间总数'])

# 每个楼层的卧室面积
temp = data.groupby('楼层')['卧室面积'].sum().reset_index()
temp.columns = ['楼层','楼层卧室面积']
data = data.merge(temp, how = 'left',on = '楼层')

# 每个楼层的房屋面积
temp = data.groupby('楼层')['房屋面积'].sum().reset_index()
temp.columns = ['楼层','楼层房屋面积']
data = data.merge(temp, how = 'left',on = '楼层')

# 每个小区附近的地铁站点数
temp = data.groupby('小区名')['地铁站点'].count().reset_index()
temp.columns = ['小区名','地铁站点数量']
data = data.merge(temp, how = 'left',on = '小区名')

# 每个位置附近的地铁站点数
temp = data.groupby('位置')['地铁站点'].count().reset_index()
temp.columns = ['位置','商圈地铁站点数量']
data = data.merge(temp, how = 'left',on = '位置')

# 每个小区出租房源平均房屋面积
area_mean = data.groupby('小区名')['房屋面积'].mean().reset_index()
area_mean.columns = ['小区名','小区房屋平均面积']
data = data.merge(area_mean, how = 'left',on = '小区名')

# 每个位置附近的小区数
temp = data.groupby('位置')['小区名'].count().reset_index()
temp.columns = ['位置','商圈小区数量']
data = data.merge(temp, how = 'left',on = '位置')

# 按租金对小区排序
qu_rent = data.groupby('区')['Label'].mean()
dict_qu_rent = {'区':qu_rent.index,'qu_rent':qu_rent.values}
df_qu_rent = pd.DataFrame(dict_qu_rent)
df_qu_rent['qu_rent'] = df_qu_rent['qu_rent'].rank()
data = data.merge(df_qu_rent, on='区',how='left')

df_train = data[data.Label.notna()].copy()
df_test = data[data.Label.isna()].copy()

feas = ['东', '东北', '东南', '位置', '出租方式', '北', '区', '南', '卧室数量',
       '卫的数量', '厅的数量', '地铁站点', '地铁线路', '小区名', '小区房屋出租数量', '居住状态', '总楼层',
       '房屋面积', '时间', '楼层', '装修情况', '西', '西北', '西南', '距离', '房间总数', '卧和卫', '卧和厅',
       '楼层比', '卫的面积', '卧室面积', '厅的面积', '楼层卧室面积', '楼层房屋面积', '地铁站点数量', '商圈地铁站点数量',
       '小区房屋平均面积', '商圈小区数量', 'qu_rent']
       
# 划分数据集
X_data = df_train[feas]
Y_data = df_train_asc['Label']

x_train,x_val,y_train,y_val = train_test_split(X_data,Y_data,test_size=0.3)
X_test = df_test[feas]

# 构建模型
model_lgb = lgb.LGBMRegressor(objective='regression', num_leaves=900,
                              learning_rate=0.05, n_estimators=3000, bagging_fraction=0.7,
                              feature_fraction=0.6, reg_alpha=0.3, reg_lambda=2,
                              min_data_in_leaf=18, min_sum_hessian_in_leaf=0.001)

model_lgb.fit(x_train, y_train)
val_lgb = model_lgb.predict(x_val)
MSE_lgb = mean_squared_error(y_val,val_lgb)
print('MSE of val with lgb:',MSE_lgb)

MSE of val with lgb: 1.5465560443903146

model_lgb_pre = model_lgb.fit(X_data,Y_data)
sub_pre = model_lgb_pre.predict(X_test)
sub_lgb = pd.DataFrame()
sub_lgb['ID'] = test.ID
sub_lgb['Label'] = sub_pre
sub_lgb.to_csv(r"C:\Users\Windows\Desktop\sub_lgb.csv",index=False)

buttogo

关注

1
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
DataCastle租金预测数据竞赛个人总结2

DataCastle租金预测数据竞赛个人总结2竞赛链接赛题任务给定房屋租金价格的各个影响因素数据，建立模型预测国内某城市房屋的租金价格。训练集大小为196,539，测试集大小为56,279。赛题详细介绍以及基础的数据预处理可跳转至个人总结1。Baselineimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei']plt.rcP
复制链接

扫一扫