用简易数据挖掘觅食(献丑)

用简易数据挖掘觅食(献丑)
今天给大家营造一种书本知识也能解决实际问题的错觉。

数据来源:大众XX   使用工具 python爬虫,pandas,seaborn

第一步,用python爬虫从大众XX抓取所有的“淮扬菜”饭  ,并且进行结构化预处理,大概就是下面这个样子,排序是大众XX上显示的顺序(狗企鹅)
 



第二步,获取需要的统计量。我做了两个简易统计指标,一个是将三种评分加权平均,一个是价钱与评分的比值
第三步,数据可视化,用seaborn看数据分布与函数规律

1,人均消费的分布情况,可以看出,并非完全正态分布,有一个向左的偏锋,说明大部分提供的是中档偏低的消费水准。


2,性价比的分布情况。数值越小越好。其实绝大部分的餐厅性价比是差不多,也就是营销学上讲的同质化。但是,这里有一个特性,右侧出现几个小的尖峰。越是靠右,越是不划算。这几个尖峰很可能是一些高消费场所,而且也明显出现了层次上的区别。


3,价格和性价比的关系。从分布看出,价格越是高的地方,性价比越低。换句话来讲,价格的增长对服务水平的提升是有限的,符合经济学规律。另外,价格性价比分布集中的区域主要是人均消费50-100元的位置,这个其实可以代表大部分的维扬菜饭店的水准。非常划算的小店,和非常不划算的豪华会所都非常少。


4,价格与服务档次之间的关系。这张图横坐标是价格,纵坐标是服务评分。可以看出大部分集中在7-8。另外,最贵的店服务并不是最好的,这可能与其服务达不到顾客的期望有关。相反,一些廉价场所的服务评分很高,原因反之亦然。验证了管理学上提到的期望效应。

5,价格与总体评价分数之间的关系。这张图横坐标为人均价钱,纵坐标为评价总分。从图中可以看出,整体分布参差不齐,常有鱼目混珠的情况,同样价格的情况下,评分也相去甚远,尤其在100-150元消费区间上,评分分布并不集中,说明其中鱼目混珠,需要仔细甄选。


这个数据挖掘可以说是基础中的基础,一个简易到不能再简易了。
下面说我的一点心得吧。数据挖掘其实重要在于数据获取与可视化部分。统计结论什么的基本可以看图说话,没有难度。所以学习的重点应该放在数据来源和可视化方面。

是不是感觉到了数据的魅力,想要源码的可以私信我,科科
饭
 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值