深圳市二手房价分析

前言

自学数据分析已经三个月了,就想着着手做一些相关的项目,恰好现在在深圳市,虽然这边的房价对我来说就是个天文数字,但是不妨我们拿来分析分析

一、数据获取

使用scrapy框架,编写网络爬虫代码,这里就选择58同城里面的数据进行爬取,总共爬取了6000多条二手房数据,将其导出为csv格式,以便进行后续的分析处理
爬取的数据

二、 数据预处理

使用jupyter book对二手房数据进行后续的处理分析,首先看下数据整体信息

//导入相关库
import numpy as np
import pandas as pd
import re
import matplotlib.pyplot as plt
from pylab import mpl
mpl.rcParams['font.sans-serif'] = ['FangSong']

data=pd.read_csv(r'C:\szfj\szhouse2.csv')//读取数据
data.info()//查看信息

在这里插入图片描述
查看下数据的前五行

data.head(5)

在这里插入图片描述
这里可以看到,我们爬取的数据包含7个特征:面积(area)、房屋朝向(direction)、所在市区(district)、单价(price)、居室数量(room)、地铁站距离(subway);总共爬取了6602套二手房数据,其中direction、floor、subway列中有缺失值。而area以及price列的数据也不是我们想要的数值类型,district列的市区拼音也要转换为汉字形式

1、缺失值处理:

directionfloor列的缺失值只有两个,我们直接做删除处理;而subway列的数据缺失值较多,分析原因,缺失值代表的应该
是该房屋没有相邻近的地铁站,这里我们做一下标记

data.dropna(subset=["direction","floor"],inplace=True)//删除缺失值
data["subway"].fillna("不靠近地铁站",inplace=True)//将subway缺失值标记为‘不靠近地铁站’

2、数据转换

将房屋面积以及房价转化为数值类型

data["area"]=data["area"].map(lambda x:float(re.match(('(\d+).*'),x).group(1)))//将面积转化为数值
data["price"]=data["price"].map(lambda x:float(re.match(('(\d+).*'),x).group(1)))//将平均价格转化为数值

将市区的拼音转化为汉字

district={
   "luohu":"罗湖",'futian':'福田','longgang':'龙岗','nanshan':'南山','baoan':'宝安','buji':'布吉','yantian':'盐田'}
data['district']=data['district'].map(district)

三、数据探索

1、房价整体分析

首先对深圳市的整体房价进行处理,包括平均价格、中位数价格和价格分布:

price = data['price']
max_price = price.max()
min_price = price.min()
mean_price = price.
  • 3
    点赞
  • 40
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
Jupyter是一款开源的交互式笔记本工具,广泛应用于数据分析和数据可视化。对于二手房房价分析,使用Jupyter可以帮助我们更好地探索和理解房价的趋势和影响因素。 在进行二手房房价分析时,我们可以使用Jupyter中强大的Python编程能力结合相关的数据分析库,如Pandas、NumPy和Matplotlib等进行数据预处理和可视化。首先,我们需要收集二手房房价的相关数据,可以使用网络爬虫或公开数据集进行获取。然后,我们可以利用Pandas库将数据导入Jupyter中,并进行数据清洗、去重、缺失值处理等预处理工作。 接下来,我们可以通过Jupyter中的代码单元格逐步分析数据。使用Pandas可以进行数据统计、描述性分析、特征工程等,帮助我们挖掘出与二手房房价密切相关的特征,如地理位置、房屋面积、周边设施等。通过使用Matplotlib库,我们可以绘制各种图表,如散点图、箱线图、饼图等来可视化数据分布和关联程度。 除了数据分析,Jupyter还可以帮助我们进行数据建模和预测。利用机器学习算法,如线性回归、决策树、随机森林等,我们可以建立房价预测模型,通过输入特征预测二手房的价格,并对模型进行评估和优化。 最后,我们可以通过Jupyter中的Markdown单元格进行文档化和报告编写,将我们的分析过程、结果和结论进行整理和展示。 总的来说,Jupyter在二手房房价分析中具有极大的优势,能够帮助我们快速高效地进行数据处理、分析、建模和可视化,为我们提供深入了解和分析二手房房价的方法和工具。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值