Python 爬取大众点评 50 页数据，最好吃的成都火锅竟是它！(3)-CSDN博客

本文链接：https://blog.csdn.net/2401_83704218/article/details/137676174

文章探讨了火锅店的评论数量、星级、人均消费、特色菜与口味、环境、服务之间的关系，并通过K-means聚类进行推荐，发现四星以上商家评论数量与星级关系不大，但注重性价比和特色菜品。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述

评论数目大多在1000以内，但是高于2000，甚至高于4000也还存在一些，这些饭店应该是一些网红店。以5000为约束，筛选出饭店均为小龙坎、蜀大侠都非常知名的火锅店。那么评论数量和星级有关系吗？看下图：

在这里插入图片描述

这里取其评论数平均值，发现对于四星以上商户来说，评论数和星级并不关系，但均比低于四星的饭店销量更好。这说明在四星以上之后，人们选择差别不大，但一般不愿意接受评论太差的饭店。

对于笔者这样的学生党来说，影响较大还有人均消费情况。

在这里插入图片描述

成都的火锅店人均消费大部分都在50-100的区间内，高于150的也有一些。对于笔者来讲，吃一顿火锅，人均在50-100是可以接受的，高于100，就要低头看看钱包了（）。那扩展看，人均消费和星级、评论数量有关系吗？

在这里插入图片描述

上图是人均消费和星级的关系，看起来并无任何关系，那说明一些口碑好的火锅店，其实人均也不贵。下面看看人均和评论数目的关系吧。

在这里插入图片描述

通过比较，发现评论数目低于500，人均在50-100区间是最多的。当然这肯定和评论数量、人均消费本身集中于这一阶段有关。

吃火锅，一家店的生意好坏，肯定还和它的特色菜有关，笔者通过jieba分词，将爬取到的推荐菜做了一个词云图，如下。

在这里插入图片描述

笔者最爱的牛肉是特色菜之最啊，尤其是麻辣牛肉，只要去吃火锅，都要来上一份，其次是毛肚、虾滑、鹅肠等等。

接下来是大家都关心的，口味、环境和服务的情况。

在这里插入图片描述

三者得分大多都是集中在8.0-9.2这一阶段，笔者认为，低于7.5分的饭店还是不要去尝试了。同时，星级评价应该也是由这三者得分产生的。

在这里插入图片描述

果然如预想的一向，星级评价越好，它在口味、环境和服务的得分越高。那么口味，环境，服务得分与评论数量，平均价格有关系吗？

在这里插入图片描述

如图所看，并无什么直接关系，但是我们发现口味、环境和服务三者之间存在着非常好的线性关系，于是单独拿出来画了一个较大的图。

在这里插入图片描述

我们并且拟合了线性关系，由于三星商户只有一家，它的情况较为特殊之外，其他星级在口味、环境和服务的关系拟合中保持的相当一致，这也证明我们的猜想，这些变量之间存在线性关系。鉴于笔者本文最大的目的是做推荐，于是，我们进行了K-means聚类，这里取K为3，并且把星级转换为数字，五星对应5分，准五星对应4.5分，以此类推。最终得到了三类，通过作图，看看聚类情况如何吧。

在这里插入图片描述

和我们想要的结果一致，在口味、环境、服务和星级上得分越高，我们就越推荐。然而推荐的店铺还是好多，能不能在集中一些呢？于是通过限制评论数量、人均消费和特色菜来进行推荐。由于笔者喜欢人少，便宜还有牛肉的店铺，这里得到了如下的结果：

在这里插入图片描述

代码

import time

import requests

from pyquery import PyQuery as pq

import pandas as pd

headers = {‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36’}

def restaurant(url):

获取网页静态源代码

try:

response = requests.get(url, headers=headers)

if response.status_code == 200:

return response.text

except Exception:

return None

name=[]

url = []

star = []

comment = []

avg_price = []

taste = []

environment = []

services = []

recommend = []

num = {‘hs-OEEp’: 0, ‘hs-4Enz’: 2, ‘hs-GOYR’: 3, ‘hs-61V1’: 4, ‘hs-SzzZ’: 5, ‘hs-VYVW’: 6, ‘hs-tQlR’: 7, ‘hs-LNui’: 8, ‘hs-42CK’: 9}

def detail_number(htm):

try:

a = str(htm)

a = a.replace(‘1<’, ‘<’)

a = a.replace(‘.’, ‘’)

b = pq(a)

cn = b(‘span’).items()

number = ‘’

for i in cn:

attr = i.attr(‘class’)

if attr in num:

attr = num[attr]

number = number + str(attr)

number = number.replace(‘None’, ‘’)

except:

number = ‘’

return number

def info_restaurant(html):

获取饭店的名称和链接

doc = pq(html)

for i in range(1,16):

#获取饭店名称

shop_name = doc(‘#shop-all-list > ul > li:nth-child(’+str(i)+‘) > div.txt > div.tit > a:nth-child(1) > h4’).text()

if shop_name == ‘’:

break

name.append(shop_name)

#获取饭店链接

url.append(doc(‘#shop-all-list > ul > li:nth-child(’+str(i)+‘) > div.pic > a’).attr(‘href’))

try:

star.append(doc(‘#shop-all-list > ul > li:nth-child(’+str(i)+‘) > div.txt > div.comment > span’).attr(‘title’))

except:

star.append(“”)

#获取评论数量

comment_html = doc(‘#shop-all-list > ul > li:nth-child(’+str(i)+‘) > div.txt > div.comment > a.review-num > b’)

comment.append(detail_number(comment_html))

#获取人均消费

avg_price_html = doc(‘#shop-all-list > ul > li:nth-child(’+str(i)+‘) > div.txt > div.comment > a.mean-price > b’)

avg_price.append(detail_number(avg_price_html))

#获取口味评分

taste_html = doc(‘#shop-all-list > ul > li:nth-child(’+str(i)+‘) > div.txt > span > span:nth-child(1) > b’)

taste.append(detail_number(taste_html))

#获取环境评分

environment_html = doc(‘#shop-all-list > ul > li:nth-child(’+str(i)+‘) > div.txt > span > span:nth-child(2) > b’)

environment.append(detail_number(environment_html))

#获取服务评分

services_html = doc(‘#shop-all-list > ul > li:nth-child(’+str(i)+‘) > div.txt > span > span:nth-child(3) > b’)

services.append(detail_number(services_html))

#推荐菜,都是显示三道菜

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Python工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Python开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上前端开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以扫码获取！！！（备注Python）

nimg.cn/img_convert/9f49b566129f47b8a67243c1008edf79.png)

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上前端开发知识点，真正体系化！

如果你觉得这些内容对你有帮助，可以扫码获取！！！（备注Python）