Python数据分析实战-链家北京二手房价分析
一、分析目标
1、查看北京二手居民住房的分布价格情况,Part 1- 数据读取和预处理;
2、理解变量、数据选取、重复值缺失值处理,Part 2 - 北京市房源分布;
3、数量、单价、总价,Part 3 - 各城区房源分布,Part 4 - 各城区房价分布;
4、单价分布、总价分布、高价Top15小区、低价Top15小区,Part 5 - 各城区房源面积分布;
5、全市平均面积分布、各城区平均面积分布、各城区总面积分布,Part 6 - 房价与房源特性的关系;
6、房价与户型、楼层、朝向、建筑年代的关系。
二、分析具体内容
Part 1 - 数据读取和预处理
1、获取数据
数据来源于网上的链家北京二手房的信息。
可以看到一共有12个变量,包括:
Direction: 房屋朝向;Region/District/Gadern: 城区/街道/小区地址或者名称Id: 链家编码;Elevator: 楼是否有电梯;Floor:楼层;Layout: 房屋户型;Renovation: 装修情况;Size: 房屋大小,单位平米;Year: 房屋建筑年代;Price: 房屋总价。
2、查看缺失值以及变量类型