此前对赶集网的上海个人房源租房信息进行了数据分析。所以用的工具是EXCEL,所以这次使用,mysql 对之前的数据进行简单的数据分析。
一.清洗并导入数据
先对excel中的数据再次进行清洗和整理。使其更加易于分析。注意把类型字符,长度和字符集调整好,不然会导入失败。名称和excel中的标题要相对应。有时候导入数据是csv格式的,需要将编码用Notepad++转换成UTF-8才能导入,否则会导致导入的数据成为乱码。
然后用navicat导入整理完成的数据。
二、数据处理和分析
(1)各区的出租房数量,并从多到少排序
SELECT AREA, COUNT(*) FROM FANGZU
GROUP BY AREA
ORDER BY COUNT(*) DESC;
供应量最大的还是浦东、闵行、松江、嘉定、宝山等区。这些区本省面积也比较大,还能新建住房,内环的区由于面积小,而且新房供应少,出租房屋也少。
(2)上海各区的平均房租并排序
SELECT AREA,AVG(RENT) AS 平均房租 FROM FANGZU
GROUP BY AREA
ORDER BY 平均房租 DESC;
房租比价贵的是静安、长宁、卢湾、普陀、闸北、黄埔等。这些区本身就靠近市中心,房租贵也是正常。
(3)各户型的平均房租
SELECT HUXING1,AVG(RENT) FROM FANGZU
GROUP BY HUXING1;
户型太大的不具备参考性,我们主要关注户型为1-4室的平均房租。数据显示,这些户型的房租和户型并没有太大关系。
(4)面积大小分布
select sum(case when RENT<1500 then 1 else 0 end) as 1500元以下,
sum(case when RENT>=1500 and RENT<2500 then 1 else 0 end) as 1500至2500元,
sum(case when RENT>=2500 and RENT<3500 then 1 else 0 end) as 2500至3500元,
sum(case when RENT>=3500 AND RENT <5000 then 1 else 0 end) as 3500至5000元,
sum(case when RENT>=5000 then 1 else 0 end) as 5000元以上
from fangzu
1500以下880间,1500至2500元之间的981间,2500至3500元之间371间,3500至5000元之间260间,5000元以上271间。因此,主要房源还是集中在2500元以下。
(5)各区的租金/面积比率
SELECT AREA, ROUND(RENT/AREA_AMOUNT,0) AS A FROM fangzu
GROUP BY AREA
ORDER BY A DESC;
由租金/面积比率可知,价钱最昂贵的是普陀、卢湾、静安、长宁等区
(6)房屋朝向好差对平均租金的影响
SELECT ORIENTATION_STATUS, AVG(RENT) FROM FANGZU
GROUP BY ORIENTATION_STATUS;
房屋朝向好和差能相差近一千元,其实这是不太可能的,主要是因为房屋朝向差的太少,导致数据存在偏差。实际上应该相差不会这么多。
(7)全市平均房租
全市平均房租为2512元