链家网东莞二手房数据分析
这是本人第二篇数据分析实战项目,使用excel、MySQL和tableau对链家网东莞二手房数据分析,也欢迎大家提出建议,相互交流探讨学习,实现共同进步。
1、数据来源
这次数据分析2020.4.7通过爬取链家网东莞二手房数据,数据包含了14个字段,分别area 、title、community、position、tax、total_price、unit_price、hourseType、hourseSize、direction、fitment、floor、built_time、type等字段。
2、分析思路
3、数据预处理
通过可以python可以看到数据集包含了21763行数据,共14个方面的数据信息,title、tax、floor、built_time、type存在缺失值,数据描述中可以发现二手房总价total_price最大值达到了4800万元,面积hourseSize最大值达到了15906.50平方米,可以推断出数据集中存在异常值。
下面进行数据清洗及处理。
(1)由于title、tax、type这个字段对本次分析没有影响,故可以忽略缺失值,保留缺失title字段的数据。
(2)通过筛选,发现hourseType字段中包含了9条0室0厅的数据,删除此数据。
(3)由于年份和楼层数包含的信息是后面分析需要用到的,但由于这两个字段无法通过其他数据进行补充缺失值,这里只能将这两个字段为空的数据删除。
(4)建筑时间built_time中出现2103年的数据,故删除此行数据。
(5)通过查看筛选数据集,发现0室1厅,0室2厅,1室0厅,1室1厅的户型,面积大于75平方米的二手房中存在大部分是车位、商铺、写字楼的数据,共86条,此类数据不在本次分析的范围内,故也删除。
(6)通过筛选可以发现二手房朝向direction字段原数据的朝向比较混乱,而且部分朝向不太符合逻辑,故根据原数据将朝向重新划分为东东,南,西,北,东南,东北,西南,西北 8个朝向,对出现的异常数据进行处理,取字符串中第一个朝向作为该条数据的朝向数据。
(6)针对后期分析的需要,增加片区字段,按照实际情况划分为城区片区、滨海片区、松山湖片区、东部产业园片区、东南临深片区、水乡新城片区。具体划分如下:
(7)提取原数据built_time字段数据的数字部分,通过=- -text()函数改为日期格式。通过datedif函数计算出当前日期距建筑日期的日期差,并增加一个built_age字段。
(8)floor字段中提取出总楼层数total_floor和楼层高度等级floor_level。
数据预处理后的数据集如下:
预处理后描述统计如下:
通过清洗后的总价-面积散点图可以看出,经过清洗后的二手房数据,价格与面积基本上成呈线性关系,面积越大,价格越高,符合现实情况。
4、二手房描述性统计
分析:
价格角度:全市二手房总价平均值是200万元左右,平均每平方19674.78元,中位数分别是175和18647,均小于平均值,说明存在一小部分二手房价格较高。
面积角度:二手房平均面积是98平方米,中位数为91,说明全市大部分二手房的面积集中在90平方米到100平方米之间。
5、房源数量分布
分析: