成都链家数据爬取分析<初稿>

链家成都数据分析

数据准备部分

链家成都数据爬取

  1. 2017年4月 全部待售房屋数据

数据清洗

  1. 将数据保存为json格式的文件
  2. 将数据读取为pds的DataFrame格式,用于分析
  3. 清洗后数据格式为
    eg:
id age area decoration elev face2 floor focus hall housename release room sqr struc totalFloor totalPrice unitPrice visit
0 2005 市一医院 简装 有电梯 低楼层 13 2.0 融城理想 14天以前发布 3.0 135 板塔结合 11 270.0 20000 2

共包括 房龄 区域 单价 总价 电梯 装修 楼层 总楼层 楼盘 朝向 带看人数 关注人数 等17个子项

数据分析

  1. 数据的可视化
    作图看可否发现规律

建成年份分布图

图解 大部分待售房屋都是在2000年至2010年间建成

关注人数分布图

图解 大部分待售房屋没有很多看房者 爆款房源集中

带看人数分布图

图解 大部分待售房屋没有很多买房 爆款房源集中

单价分布图

7k5 到 10k的房源最多
75%的房源价格在5k到12k5之间

总楼层高分布图

11层高 与 25层高 相对较多

总价分布图

50万 至 100万 较多

发布时间分布图

7到60天 的比例超过60%

建造年份分布图

2000年至2010年间建造房屋较多

单价与其他因素关联分组-1
从上到下依次为
1. 面积与单价 关联分组 未发现明显特征
2. 房龄与单价 关联分组 可以看出5年内的新盘单价较高
3. 是否电梯 与单价 关联分组 价差约3000元
4. 楼盘名 与单价 关联分组 未发现明显特征
5. 关注人数 与单价 关联分组关注人数较大的楼盘价差较大关注人数少的约为万元左右楼盘
6. 朝向与单价 关联分组
意外的是朝南的房子并没有比较贵

朝向 单价有效值
10036.214480
东北 10111.987842
东南 9588.616673
11304.247423
10234.785159
西 11890.804912
西北 10590.946936
西南 9668.406892
  1. 带看人数 与单价 关联分组
    与关注不同,带看人数多的房源 单价明显增加

单价与其他因素关联分组-2
从上到下依次为
1. 单价 户型结构中的室 关联分组
大户型似乎单价更高

  1. 总层数与单价 关联分组
    楼层越高单价越高 也和前面的房龄越短单价越高印证

  2. 房屋面积 与单价 关联分组 房屋面积越大 单价差别越大

  3. 单价 户型结构中的厅 关联分组
    大户型单价更高

部分数据摘录

单价最低的五个区域

楼盘 75%分位数 最高
郫县万达 6094.
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值