链家网东莞二手房数据分析

本文通过爬取链家网2020年4月东莞二手房数据,进行深度分析,包括数据预处理、房源分布、户型与价格关系等。结果显示,滨海片区房源最多,小户型最受欢迎,松山湖片区二手房面积较大,房价与户型、楼层、朝向、地区、建筑时间等因素有一定关系。房价与二手房楼龄正相关,新房子通常价格更高。
摘要由CSDN通过智能技术生成

这是本人第二篇数据分析实战项目,使用excel、MySQL和tableau对链家网东莞二手房数据分析,也欢迎大家提出建议,相互交流探讨学习,实现共同进步。

1、数据来源

这次数据分析2020.4.7通过爬取链家网东莞二手房数据,数据包含了14个字段,分别area 、title、community、position、tax、total_price、unit_price、hourseType、hourseSize、direction、fitment、floor、built_time、type等字段。

2、分析思路

在这里插入图片描述

3、数据预处理

通过可以python可以看到数据集包含了21763行数据,共14个方面的数据信息,title、tax、floor、built_time、type存在缺失值,数据描述中可以发现二手房总价total_price最大值达到了4800万元,面积hourseSize最大值达到了15906.50平方米,可以推断出数据集中存在异常值。
在这里插入图片描述
下面进行数据清洗及处理。
(1)由于title、tax、type这个字段对本次分析没有影响,故可以忽略缺失值,保留缺失title字段的数据。
(2)通过筛选,发现hourseType字段中包含了9条0室0厅的数据,删除此数据。
(3)由于年份和楼层数包含的信息是后面分析需要用到的,但由于这两个字段无法通过其他数据进行补充缺失值,这里只能将这两个字段为空的数据删除。
(4)建筑时间built_time中出现2103年的数据,故删除此行数据。
(5)通过查看筛选数据集,发现0室1厅,0室2厅,1室0厅,1室1厅的户型,面积大于75平方米的二手房中存在大部分是车位、商铺、写字楼的数据,共86条,此类数据不在本次分析的范围内,故也删除。
(6)通过筛选可以发现二手房朝向direction字段原数据的朝向比较混乱,而且部分朝向不太符合逻辑,故根据原数据将朝向重新划分为东东,南,西,北,东南,东北,西南,西北 8个朝向,对出现的异常数据进行处理,取字符串中第一个朝向作为该条数据的朝向数据。
(6)针对后期分析的需要,增加片区字段,按照实际情况划分为城区片区、滨海片区、松山湖片区、东部产业园片区、东南临深片区、水乡新城片区。具体划分如下:
在这里插入图片描述
(7)提取原数据built_time字段数据的数字部分,通过=- -text()函数改为日期格式。通过datedif函数计算出当前日期距建筑日期的日期差,并增加一个built_age字段。
(8)floor字段中提取出总楼层数total_floor和楼层高度等级floor_level。

数据预处理后的数据集如下:
在这里插入图片描述
预处理后描述统计如下:
在这里插入图片描述
在这里插入图片描述
通过清洗后的总价-面积散点图可以看出,经过清洗后的二手房数据,价格与面积基本上成呈线性关系,面积越大,价格越高,符合现实情况。

4、二手房描述性统计

在这里插入图片描述分析:
价格角度:全市二手房总价平均值是200万元左右,平均每平方19674.78元,中位数分别是175和18647,均小于平均值,说明存在一小部分二手房价格较高。
面积角度:二手房平均面积是98平方米,中位数为91,说明全市大部分二手房的面积集中在90平方米到100平方米之间。

5、房源数量分布

在这里插入图片描述分析:

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值