用简易数据挖掘觅食（献丑）

最新推荐文章于 2024-08-23 11:56:20 发布

天星数据

最新推荐文章于 2024-08-23 11:56:20 发布

阅读量384

点赞数

文章标签：数据挖掘数据

本文链接：https://blog.csdn.net/u014662285/article/details/76890216

版权

用简易数据挖掘觅食（献丑）

今天给大家营造一种书本知识也能解决实际问题的错觉。

数据来源：大众XX 使用工具 python爬虫,pandas,seaborn

第一步，用python爬虫从大众XX抓取所有的“淮扬菜”

，并且进行结构化预处理，大概就是下面这个样子，排序是大众XX上显示的顺序（狗企鹅）

第二步，获取需要的统计量。我做了两个简易统计指标，一个是将三种评分加权平均，一个是价钱与评分的比值
第三步，数据可视化，用seaborn看数据分布与函数规律

1，人均消费的分布情况，可以看出，并非完全正态分布，有一个向左的偏锋，说明大部分提供的是中档偏低的消费水准。

2，性价比的分布情况。数值越小越好。其实绝大部分的餐厅性价比是差不多，也就是营销学上讲的同质化。但是，这里有一个特性，右侧出现几个小的尖峰。越是靠右，越是不划算。这几个尖峰很可能是一些高消费场所，而且也明显出现了层次上的区别。

3，价格和性价比的关系。从分布看出，价格越是高的地方，性价比越低。换句话来讲，价格的增长对服务水平的提升是有限的，符合经济学规律。另外，价格性价比分布集中的区域主要是人均消费50-100元的位置，这个其实可以代表大部分的维扬菜饭店的水准。非常划算的小店，和非常不划算的豪华会所都非常少。

4，价格与服务档次之间的关系。这张图横坐标是价格，纵坐标是服务评分。可以看出大部分集中在7-8。另外，最贵的店服务并不是最好的，这可能与其服务达不到顾客的期望有关。相反，一些廉价场所的服务评分很高，原因反之亦然。验证了管理学上提到的期望效应。

5，价格与总体评价分数之间的关系。这张图横坐标为人均价钱，纵坐标为评价总分。从图中可以看出，整体分布参差不齐，常有鱼目混珠的情况，同样价格的情况下，评分也相去甚远，尤其在100-150元消费区间上，评分分布并不集中，说明其中鱼目混珠，需要仔细甄选。

这个数据挖掘可以说是基础中的基础，一个简易到不能再简易了。
下面说我的一点心得吧。数据挖掘其实重要在于数据获取与可视化部分。统计结论什么的基本可以看图说话，没有难度。所以学习的重点应该放在数据来源和可视化方面。

是不是感觉到了数据的魅力，想要源码的可以私信我，科科

关注