基于python3.7的scrapy爬取大众点评上的健身房

最新推荐文章于 2025-04-10 18:36:38 发布

NeverSayCode

最新推荐文章于 2025-04-10 18:36:38 发布

阅读量1.1k

点赞数

文章标签： python3.7 scrapy 大众点评

本文链接：https://blog.csdn.net/NeverSayCode/article/details/92840964

版权

本文介绍了如何在Python3.7环境下，利用PyCharm配置和安装Scrapy，创建Scrapy项目，并针对大众点评网站进行健身房数据爬取。主要步骤包括配置Python环境，安装Scrapy及其依赖，创建Scrapy工程，定义爬取目标（如商家名称和星级），编写爬虫逻辑，处理爬取数据，并配置settings以运行爬虫。尽管遇到反爬机制，但成功抓取了部分关键信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

使用IDE ,pycharm

一、首先配置好python环境，这个自行安装了，推荐一个python环境安装地址
二、配置scrapy环境，这个在pycharm中的setting 搜索安装就行在这里插入图片描述
因为scrapy依赖了一些其它的库，所以你先得把其它的库安装好才行

按照上图所示从下向上依次安装就可以了

三、创建一个scrapy工程，在pycharm下的terminal里运行命令 scrapy startproject projectName,这里的projectName就是你自己取的工程名字，运行完以后，通过pycharm 找到并打开刚刚创建的projectName这个文件，然后打开setting,安装依次scrapy就行，这次只需要安装scrapy就可以，然后你会看到下图这种箭头那会是红色的，你选择show all添加一个就行，添加的时候默认就行
在这里插入图片描述
然后在terminal 运行指令 scrapy genspider dianping dianping.com 这个命令的意思是，创建一个名为dianping的爬虫脚本，这个脚本的搜索域名为dianping.com，到此我们的scrapy框架基本搭建完毕目录结构如下所示

四、然后我打开大众点评分析我们要爬的网站源码
在这里插入图片描述
我们需要的数据全在这个div里。
我们需要确定我们要爬的数据，我这里只爬取了商家的名字和星级。为什么只做爬了这两个数据，最后在说。
首先在items.py中定义爬虫最终需要爬取哪些想

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

最低0.47元/天解锁文章