链家网东莞二手房数据分析

最新推荐文章于 2024-08-21 14:19:27 发布

690973185

最新推荐文章于 2024-08-21 14:19:27 发布

阅读量2.2k

点赞数 5

文章标签：数据分析

本文链接：https://blog.csdn.net/u014651538/article/details/105648278

版权

本文通过爬取链家网2020年4月东莞二手房数据，进行深度分析，包括数据预处理、房源分布、户型与价格关系等。结果显示，滨海片区房源最多，小户型最受欢迎，松山湖片区二手房面积较大，房价与户型、楼层、朝向、地区、建筑时间等因素有一定关系。房价与二手房楼龄正相关，新房子通常价格更高。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这是本人第二篇数据分析实战项目，使用excel、MySQL和tableau对链家网东莞二手房数据分析，也欢迎大家提出建议，相互交流探讨学习，实现共同进步。

1、数据来源

这次数据分析2020.4.7通过爬取链家网东莞二手房数据，数据包含了14个字段，分别area 、title、community、position、tax、total_price、unit_price、hourseType、hourseSize、direction、fitment、floor、built_time、type等字段。

2、分析思路

在这里插入图片描述

3、数据预处理

通过可以python可以看到数据集包含了21763行数据，共14个方面的数据信息，title、tax、floor、built_time、type存在缺失值，数据描述中可以发现二手房总价total_price最大值达到了4800万元，面积hourseSize最大值达到了15906.50平方米，可以推断出数据集中存在异常值。
在这里插入图片描述
下面进行数据清洗及处理。
（1）由于title、tax、type这个字段对本次分析没有影响，故可以忽略缺失值，保留缺失title字段的数据。
（2）通过筛选，发现hourseType字段中包含了9条0室0厅的数据，删除此数据。
（3）由于年份和楼层数包含的信息是后面分析需要用到的，但由于这两个字段无法通过其他数据进行补充缺失值，这里只能将这两个字段为空的数据删除。
（4）建筑时间built_time中出现2103年的数据，故删除此行数据。
（5）通过查看筛选数据集，发现0室1厅，0室2厅，1室0厅，1室1厅的户型，面积大于75平方米的二手房中存在大部分是车位、商铺、写字楼的数据，共86条，此类数据不在本次分析的范围内，故也删除。
（6）通过筛选可以发现二手房朝向direction字段原数据的朝向比较混乱，而且部分朝向不太符合逻辑，故根据原数据将朝向重新划分为东东，南，西，北，东南，东北，西南，西北 8个朝向，对出现的异常数据进行处理，取字符串中第一个朝向作为该条数据的朝向数据。
（6）针对后期分析的需要，增加片区字段，按照实际情况划分为城区片区、滨海片区、松山湖片区、东部产业园片区、东南临深片区、水乡新城片区。具体划分如下：
在这里插入图片描述
（7）提取原数据built_time字段数据的数字部分，通过=- -text()函数改为日期格式。通过datedif函数计算出当前日期距建筑日期的日期差，并增加一个built_age字段。
（8）floor字段中提取出总楼层数total_floor和楼层高度等级floor_level。

数据预处理后的数据集如下：
在这里插入图片描述
预处理后描述统计如下：

通过清洗后的总价-面积散点图可以看出，经过清洗后的二手房数据，价格与面积基本上成呈线性关系，面积越大，价格越高，符合现实情况。

4、二手房描述性统计

在这里插入图片描述 分析：
价格角度：全市二手房总价平均值是200万元左右，平均每平方19674.78元，中位数分别是175和18647，均小于平均值，说明存在一小部分二手房价格较高。
面积角度：二手房平均面积是98平方米，中位数为91，说明全市大部分二手房的面积集中在90平方米到100平方米之间。