链家武汉二手房分析和数据建模

该博客探讨了武汉二手房市场的数据,包括不同类型的房产,如车位和别墅。通过对数据的初步分析,发现存在一些缺失值,尤其是关于电梯属性和建筑时间。博主建议根据总楼层插补电梯信息,并采用相邻样本时间的均值填充建筑时间的缺失值。进一步的分析揭示了价格与区域的关系,以及高房价小区和各区域房源分布情况。最后,建立了二手房的回归模型,比较了岭回归、随机森林和SVR的性能,发现随机森林可能存在过拟合,而SVR训练速度较慢。
摘要由CSDN通过智能技术生成
#相应模块的导入
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import re
import seaborn as sns
import matplotlib.image as mpimg # mpimg 用于读取图片
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
raw_housing = pd.read_csv('lianjia_house.csv',encoding='gbk')#数据获取过程见上一篇博客

本案例值分析武汉二手厅室房,先看看初始数据是怎么样的!
这里写图片描述

#信息这一特征所对应的字符串比较复杂,我们需要对其分裂成多列,先探索下这一特征
info = raw_housing['信息'].str.split('|')
info.map(lambda x: len(x)).unique()#可以发现,有些行可以分成4列,有些可以分5列等;

这里写图片描述
这里写图片描述
从上面的截图中可以看出样本中有些是车位,有些是别墅,其实认真分析下信息这列的文本结构,字符串中第2个文本,表明了所售资产的类型,可以同过下面语句查看。

raw_housing['信息'].str.split('|').map(lambda x: x[1]).unique()
输出:
array([' 2室2厅 ', ' 3室2厅 ', ' 2室1厅 ', ' 4室3厅 ', ' 3室1厅 ', ' 4室2厅 ',
       ' 1室1厅 ', ' 4室1厅 ', ' 5室1厅 ', ' 1室0厅 ', ' 5室2厅 ', ' 7室2厅 ',
       ' 3室3厅 ', ' 6室2厅 ', ' 6室3厅 ', ' 5室3厅 ', ' 独栋别墅 ', ' 1室2厅 ',
       ' 6室1厅 ', ' 联排别墅 ', ' 8室2厅 ', ' 2室0厅 ', ' 4室4厅 ', ' 车位 ', ' 5室4厅 ',
       ' 7室0厅 ', ' 3室0厅 ', ' 9室3厅 ', ' 7室3厅 ', ' 6室4厅 ', ' 9室0厅 ',
       ' 8室3厅 ', ' 0室23厅 ', ' 3室4厅 ', ' 5室5厅 ', ' 9室2厅 ', ' 叠拼别墅 ',
       ' 双拼别墅 ', ' 5室0厅 ', ' 2室3厅 ', ' 7室4厅 ', ' 6室5厅 ', ' 9室1厅 ',
       ' 8室0厅 ', ' 6室0厅 ', ' 10室1厅 ', ' 4室0厅 ', ' 3室5厅 ', ' 9室4厅 ',
       ' 7室1厅 '], dtype=object)

#剔除掉为车位和别墅的样本
#剔除车位和别墅的样本
housing =
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值