R语言数据分析案例43-酒店数据统计分析(可视化、假设检验等)

1.调查背景和意义

随着旅游业和酒店行业的蓬勃发展,市场上的酒店数量和类型不断增加,消费者在选择酒店时面临着越来越多的选择。然而,在众多选择中,酒店价格是一个关键的考虑因素,因为它直接影响消费者的决策。酒店的价格不仅仅是一个数字,它受到多个因素的综合影响,例如酒店的位置、设施的完善程度、服务质量、房间类型以及酒店的整体评价等。这些因素相互交织,共同决定了酒店的定价策略。

2.调查问题描述

本次调查的主要问题是:不同酒店属性如何影响其价格?

3.数据收集过程

这是一个关于北京多家酒店的数据集,包含了酒店名称、地区、地址、卫生评分、服务评分、设施评分、位置评分、评价数、装修时间、房间类型、房价、经度、纬度、公司、出行住宿、校园生活等信息。。。。

4.统计方法的选择

为了深入分析酒店属性对价格的影响,我们选择了描述统计和假设检验相结合的统计方法。

4.1描述统计

描述统计主要用于概述数据的基本特征,包括酒店的位置、设施评分、卫生评分、服务评分、房间类型和价格的分布情况。

4.2假设检验

假设检验主要用于分析不同酒店属性对价格的影响。我们采用单因素方差分析(ANOVA)的方法,比较不同属性对价格的影响。具体步骤如下:。。。

5. 统计结果的分析

5.1 描述统计结果

数据和代码

报告代码和数据

数据基本情况如下:

hoteldata <- read.csv("data.csv")
head(hoteldata,5)

# 查看数据集的结构
str(hoteldata)

接下来查看数据具体结构

通过对这些数据的分析,我们可以得到数据主要包括字符串型和数值型数据。例如酒店名称,数据集中包含了 556 家酒店的名称,这些酒店分布在北京市的不同地区。地区,酒店分布在海淀区、东城区、朝阳区等多个地区。卫生评分,卫生评分的平均值为 4.7,说明大部分酒店的卫生状况较好等等。

接下来查看数据集的描述性统计量:

 该数据集包含了 556 家酒店的信息,包括酒店名称、地区、地址、卫生评分、服务评分、设施评分、位置评分、评价数、装修时间、房间类型、房价、经度、纬度、公司、出行住宿和校园生活等变量。。。

接下来对特征值进行可视化,首先绘制房价的直方图:

# 绘制房价的直方图
hist(hoteldata$房价, main = "房价分布", xlab = "房价", ylab = "频数", col = "lightblue")

从上面呈现的直方图中可以清晰地看出,房价的分布主要集中在 2000 元左右,这一价格区间的频数最高。随着房价的逐渐升高,其对应的频数呈现出逐渐降低的趋势,表明较高房价的酒店数量相对较少。

boxplot(hoteldata$卫生评分, hoteldata$服务评分, hoteldata$设施评分, hoteldata$位置评分, main = "评分分布", xlab = "评分类型", ylab = "评分", col = c("red", "green", "blue", "yellow"))

 这个评分箱线图主要用于展示卫生评分、服务评分、设施评分和位置评分的情况。从图中可以看出,卫生评分最高,约为 4.6 左右,其次是服务评分,最后是设施评分。总体而言,这些评分都相对较高

接下来绘制不同地区酒店数量的柱状图:

barplot(table(hoteldata$地区), main = "不同地区酒店数量", xlab = "地区", ylab = "酒店数量", col = "red", border = "white")

从上面同地区酒店数量的柱状图可以看出,其中朝阳区的酒店分布是最多的,接近200,其次是其他城区,最后是海淀区的酒店数据。

接下来分析不同公司附近酒店数量的柱状图:

barplot(table(hoteldata$房间类型), main = "不同房间类型酒店数量", xlab = "房间类型", ylab = "酒店数量", col = c("purple", "orange"))

接下来分析不同公司附近酒店数量的柱状图: 

从图中可以清晰地看到,大部分酒店周边都分布着众多的公司。这种布局无疑为人们的需求提供了极大的便利。对于商务旅行者来说,选择位于公司附近的酒店可以大大减少通勤时间和成本,提高工作效率。他们可以更加便捷地前往公司进行商务活动,与客户会面或参加会议。。。。

接下来进行相关系数热力图

# 计算数值型变量之间的相关性
cor_matrix <- cor(numeric_vars)
# 绘制热力图
heatmap(cor_matrix, main = "数值型变量热力图", xlab = "变量", ylab = "变量")

从热力图中可以看到,各数值型变量之间的相关性通过颜色深浅表示。颜色越深(接近红色)表示相关性越强,颜色越浅(接近黄色)表示相关性较弱。图中显示,服务评分、卫生评分、设施评分、位置评分和房价之间存在较强的正相关关系,。。

5.2 假设检验分析

接下来进行单因素方差分析(ANOVA)和t检验

看一下地区与房价的关系:

# 单因素方差分析
anova_location <- aov(房价 ~ 地区, data = data)
summary(anova_location)

 从单因素方差分析(ANOVA)结果来看,地区对房价的影响是显著的。具体结果显示,F值为6.714,对应的p值为0.000187,这远小于0.001,表明不同地区的房价存在显著差异。因此,可以拒绝零假设,接受备择假设,即不同地区的房价存在显著差异

箱线图可视化

library(ggplot2)
# 箱线图
ggplot(data, aes(x = as.factor(地区), y = 房价)) + 
  geom_boxplot() +
  labs(title = "不同地区下的房价分布", x = "地区", y = "房价 (人民币)") +
  theme(plot.title = element_text(hjust = 0.5))

从箱线图中可以看到,不同地区的房价分布情况各不相同。总体来看,东城区的房价中位数略高于其他地区,且东城区和海淀区有较多的高价异常值(即高于箱线图上须的点)。。。。

接下来查看卫生评分与房价的关系和可视化一下

从箱线图中可以看到,不同卫生评分下的房价分布情况各不相同。总体来看,随着卫生评分的增加,房价也呈现上升趋势。特别是卫生评分为4.8、4.9和5.0的酒店,其。。。。

接下来查看服务评分与房价的关系和可视化一下

从单因素方差分析(ANOVA)结果来看,服务评分对房价的影响是显著的。具体结果显示,F值为126.1。。。 

 接下来查看设施评分与房价的关系和可视化一下

 从箱线图中可以看到,不同设施评分下的房价分布情况各不相同。总体来看,随着设施评分的增加,房价也呈现上升趋势。特别是设施评分为4.7和4.8的酒店,。。

接下来查看房间类型与房价的关系和可视化一下

6. 结论和展望

6.1 研究结论

通过对北京市多家酒店数据的分析,我们得出了一些重要结论。这些结论揭示了影响酒店房价的主要因素,并展示了不同因素对房价的具体影响程度:

地区对房价的影响。单因素方差分析结果表明,不同地区的酒店房价存在显著差异。东城区和海淀区的酒店房价明显高于其他地区,这可能是由于这些区域的地理位置优越,且设施和服务水平较高。卫生评分对房价的影响。卫生评分对房价的影响显著。。。。。

6.2 研究意义

为消费者提供参考。消费者可以根据研究结果,更加理性地选择酒店。例如,如果注重卫生和服务质量,可以选择评分较高的酒店;如果预算有限,可以选择位于价格较低地区或房间类型较低的酒店。

6.3 展望

数据的扩展和多样化。本研究仅基于北京市的酒店数据,未来可以扩展到其他城市或地区,进行更大范围的比较和分析。考虑更多影响因素。。。。

创作不易,希望大家多点赞关注评论!!!(类似代码或报告定制可以私信)

  • 8
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值