scrapy爬取酒店评论数据

Scrapy爬取酒店评论

最新推荐文章于 2025-09-09 15:38:29 发布

原创最新推荐文章于 2025-09-09 15:38:29 发布 · 5k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#github #python爬虫 #scrapy-爬虫

Python 专栏收录该内容

9 篇文章

订阅专栏

本文介绍使用Scrapy爬虫从Booking.com抓取28万条酒店评论的过程，包括项目搭建、数据项定义、爬虫制作及内容存储等步骤。

部署运行你感兴趣的模型镜像

scrapy爬取酒店评论数据

代码 here：GitHub：scrapy_hotel_review

采用scrapy爬取酒店评论数据。

总共有28W条记录。

做某NLP任务，需要一些hotel reviews, 选择从www.booking.com搞一点数据来。
根据主页显示总共有20个城市from diferrent countries，每个城市下有若干个酒店，每个酒店下若干条评论。

〇、数据源介绍

数据源：www.booking.com
具体：

所有的城市：

某个城市的酒店列表：

某个酒店的评论：

一、爬取数据项：

设定一条记录有如下字段：

目标酒店名target
分数score
总体评价overall_comment
正评论positive_comment
负评论negative_comment
入住日期date
城市名city_name

用CSV文件保存with seperator “\t”.

二、目录介绍：

-hotel_review_booking：hotel_data数据文件
  -hotel_review_booking：scrapy理解的项目目录
        -hotel_review_booking：scrapy的真正项目目录
        -entrypoint
        ……

三、流程：四步：

新建项目 (Project)：新建一个新的爬虫项目
明确目标（Items）：明确你想要抓取的目标
制作爬虫（Spider）：制作爬虫开始爬取网页
存储内容（Pipeline）：设计管道存储爬取内容

四、url分析：

略……

五、代码提示：

因为酒店列表不好直接显示页数，所以采取半人工手段标记页数……
日期date: 使用正则匹配。

pattern = r'(\d{4})年(\d{1,2})月(\d{1,2})日'
pattern_compiled = re.compile(pattern)
其他也没啥的，就是scrapy的使用上，纯经验主义。

您可能感兴趣的与本文相关的镜像

EmotiVoice

EmotiVoice

AI应用

EmotiVoice是由网易有道AI算法团队开源的一块国产TTS语音合成引擎，支持中英文双语，包含2000多种不同的音色，以及特色的情感合成功能，支持合成包含快乐、兴奋、悲伤、愤怒等广泛情感的语音。

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。