一、研究背景和意义
随着旅游业的快速发展和人们生活水平的提高,酒店行业作为旅游业的重要组成部分,也得到了迅猛的发展。北京作为中国的首都和国际化大都市,拥有众多的酒店,酒店市场竞争激烈。因此,对北京酒店市场进行数据分析,了解市场现状和趋势,对于酒店经营者和消费者都具有重要的意义。。。。
二、实证分析
首先我们读取了数据集并且查看了前五行的数据,数据如下:
# 读取数据集
hoteldata <- read.csv("hoteldata.csv")
head(hoteldata,5)
这是一个关于多家酒店的数据集,包含了酒店名称、地区、地址、卫生评分、服务评分、设施评分、位置评分、评价数、装修时间、房间类型、房价、经度、纬度、公司、出行住宿、校园生活等信息。
接下来查看数据具体结构
通过对这些数据的分析,我们可以得到数据主要包括字符串型和数值型数据。。。。
接下来查看数据集的描述性统计量
summary(hoteldata)
数据集中的酒店分布在北京市的不同地区,卫生评分、服务评分、设施评分和位置评分的平均值都在 4.5 左右,评价数的中位数为 209.5。。。
接下来对特征值进行可视化,首先绘制房价的直方图:
# 绘制房价的直方图
hist(hoteldata$房价, main = "房价分布", xlab = "房价", ylab = "频数", col = "lightblue")
# 绘制卫生评分、服务评分、设施评分、位置评分的箱线图
boxplot(hoteldata$卫生评分, hoteldata$服务评分, hoteldata$设施评分, hoteldata$位置评分, main = "评分分布", xlab = "评分类型", ylab = "评分", col = c("red", "green", "blue", "yellow"))
从上面呈现的直方图中可以清晰地看出,房价的分布主要集中在 2000 元左右,这一价格区间的频数最高。随着房价的逐渐升高,其对应的频数呈现出逐渐降低的趋势。。。
接下来绘制的箱线图则进一步展示了房价的分布情况:
这个评分箱线图主要用于展示卫生评分、服务评分、设施评分和位置评分的情况。从图中可以看出,卫生评分最高,约为 4.6 左右,其次是服务评分,最后是设施评分。。。
接下来绘制不同地区酒店数量的柱状图:
从上面同地区酒店数量的柱状图可以看出,其中朝阳区的酒店分布是最多的,接近200,其次是其他城区
接下来绘制不同房间类型酒店数量的柱状图:
下来分析不同公司附近酒店数量的柱状图:
从图中可以清晰地看到,大部分酒店周边都分布着众多的公司。这种布局无疑为人们的需求提供了极大的便利。。。
相关系数热力图:
cor_matrix <- cor(numeric_vars)
# 绘制热力图
heatmap(cor_matrix, main = "数值型变量热力图", xlab = "变量", ylab = "变量")
接下来对数值型变量建立线性回归模型来研究:
# 建立线性回归模型
model <- lm(房价 ~., data = numeric_vars)
其中Residuals给出了残差的最小值、第一四分位数、中位数、第三四分位数和最大值。残差是实际房价与模型预测房价之间的差异。
Coefficients列出了模型的系数估计值、标准误差、t 值和 p 值。例如,卫生评分的系数为 1647,意味着卫生评分每增加 1 个单位,房价预计会增加 1647 元。。。
接下来对模型进行检验:
# 进行模型诊断,检查模型的假设是否满足
plot(model)
从上面残差图可以看出,模型的假设基本满足。接下来进行拟合优度检验
r_squared <- summary(model)$r.squared
adjusted_r_squared <- summary(model)$adj.r.squared
cat("R-squared:", r_squared, "\n")
cat("Adjusted R-squared:", adjusted_r_squared, "\n")
拟合优度结果为R-squared: 0.2218918,有点低。
三、结论
本研究通过对北京酒店数据的分析,了解了北京酒店市场的现状和趋势。研究结果表明,北京酒店市场竞争激烈,酒店数量众多,价格水平较高,服务质量参差不齐。同时,研究还发现,卫生评分、服务评分、出行住宿等变量对房价有显著影响。。
创作不易,希望大家多点赞关注评论!!!(类似代码或报告定制可以私信)