一、数据来源
本次数据来源于大众点评11个城市的推荐美食数据。每个城市均爬取了城市推荐美食的50页数据,但由于部分数据爬取时出现问题,最终每个城市数据量并不一致,在720条到760条之间,分析时应主要采用百分比和平均数等方式构建指标,以排除不同城市样本数不一致带来的影响。
由于各个城市的美食数据并不是全样本的(各城市子标签下的数据没有爬取),因此仅能反映各城市大众点评推荐美食(即前50页内容)的情况,而非该城市美食的整体情况,各地吃货小伙伴们请不要向我开炮 ,因为有些结果我也十分意外。
这次分析使用了mysql,因为有些sql语句太长,为了不影响大家看正文,就统一放到后边,对sql语句有兴趣的话也可以看看。前5列数据
二、分析哪些问题?
1.哪个城市的热门推荐餐厅种类多样性最高?
对11个城市的推荐餐厅类型数目(total_type)做统计,并用“餐厅类型/推荐餐厅总数”作为这个城市的餐厅多样性指数。从结果可以可以看到,北京、天津、深圳和广州餐厅多样性比较高。见sql语句1
2.每个城市推荐美食中占比最高的美食类型是什么?
字段total_type表示每个城市推荐美食中出现次数最多的类型,total_type_pct表示其占该城市所有美食类型的百分比。
纵观11个城市,火锅当之无愧成为热门中的热门,无论天南地北,火锅都是很受追捧(尽管事实上各地火锅还是有所区别的)。而北京、上海、天津则比较洋气,以西餐厅居多。为了方便后边的分析,我们做个粗略的分类,重点分析两类:西餐城市:北京,上海,天津