摘要:自编爬虫从某二手房交易网爬取武汉市全市13个区范围内6月份所有挂牌二手房交易信息,包括房屋所在小区名称、房间数、单价、总价、所属区域等,存储在表格中;根据小区名称和所属区域从高德网络地图API获取小区经纬度;通过RGui进行数据排序显示;通过ArcGIS软件叠加房源点和行政区划图,制作房间热力图。分析房价高地分布情况,对二手房购房者提供参考借鉴意义。二手房交易网上的信息纯属市场行为,存在一定的不真实,总体算是可靠的,与在小区中介询问的调查价格基本一致。
1、爬取某房价网二手房交易价格,存储在csv文件
<<武汉市房价分布.csv>>
2、在RGui中导入数据:
mydata<-read.table(header=T,file="F:\\武汉市房价分布.csv",sep=",")
3、提取子数据集
wc<-subset(mydata,"区"="武昌")
4、绘制单个区的箱形图
boxplot(单价~区,mydata)
设置纵轴坐标单位,设置箱体颜色为lightblue,
boxplot(单价~区,mydata,col="lightblue")
以千元为单位,
boxplot(单价/1000~区,mydata,col="lightblue")
添加纵坐标标签,
boxplot(单价/1000~区,mydata,ylab="二手房单价(单位:千元)",col="lightblue")
4、清洗掉极值,如单价超过6万元的数据
5、对数据进行排序
对分组箱图按中位数进行逆序排列后显示:
> aggregate(.~区,data=mydata,mean)
区 小区全称 单价 省 市 地址 邮编 经度 纬度
1 蔡甸区 1665.875 10350.895 1 1 102.3711 420114 114.0867 30.53099
2 东西湖区 1580.328 14260.978 1 1 320.5690 420112 114.1852 30.64115
3 汉南区 1511.643 7002.554 1 1 450.6786 420113 114.081130.32355
4 汉阳区 1743.552 16095.344 1 1 571.2365 420105 114.2273 30.54636
5 洪山区 1439.315 16145.331 1 1 905.0126 420111 114.3861 30.52368
6 黄陂区 1576.626 10191.703 1 1 1226.0659 420116 114.3232 30.76294
7 江岸区 1725.614 20703.460 1 1 1484.5160 420102 114.2965 30.61917
8 江汉区 1653.395 19961.476 1 1 1814.8360 420103 114.2661 30.60400