R语言租房市场分析（聚类、回归）

最新推荐文章于 2024-07-17 20:15:39 发布

麻纪麻纪

最新推荐文章于 2024-07-17 20:15:39 发布

阅读量2.1k

点赞数 3

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41855768/article/details/85064356

版权

本文使用R语言对租房数据进行kmeans聚类，通过选择最佳聚类个数确定为4类：特大、大、普通和小户型。接着，建立线性回归模型探讨影响租金的因素，包括面积、楼层和地区等，发现面积和可居住人数正向影响价格，楼层和区域负向影响价格。数据预处理涉及数值型数据的正态性检验和分类变量的哑变量转换。

摘要由CSDN通过智能技术生成

上一篇文章写了用R爬取租房数据以及做初步数据分析，这篇文章拿之前爬的数据，对房源进行分类以及探究影响租金的因素。

爬取的数据文末会附上链接。

文章目录

1 使用kmeans对房源数据进行聚类

kmeans聚类是一种简单粗暴的无监督学习方法，通过点到中心点的距离的计算并反复迭代，可以将没有标签的数据集自动归类。

1.1数据导入

首先，导入数据，

house2 <- read.csv("house2.csv",stringAsFactor = T）
View(house2)

在这里插入图片描述

1.2 数据预处理

为了能用散点图（只有x和y两个坐标）更直观的看出聚类效果，这里就简单选取两个数值型变量：房源价格和面积做聚类。

df<-data.frame(price=house$price,area=house$area)
str(df)

在这里插入图片描述

因为kmeans涉及到计算点与中心点之间的距离，因此在计算时要去除数据的单位限制，也就是对数据进行标准化，便于不同单位或量级的指标能够进行比较和加权。

这里使用z-score 标准化的方法，它的好处是即使有可能存在离群值，不会对标准化后的数据产生很大的影响。

df2<- data.frame(scale(df))#对数据进行标准化
View(df2)

在这里插入图片描述
经过标准化后，价格和面积的数据在量纲上就差不多了。

1.3 判断最佳聚类个数

在建立模型之前，应该先确定模型最佳聚类个数。
因为K-means方法的原则是让组内间距尽可能小，组间差距尽

最低0.47元/天解锁文章

关注

3
点赞
踩
22

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。