scrapy爬取酒店评论数据

scrapy爬取酒店评论数据

代码 here:GitHub:scrapy_hotel_review

采用scrapy爬取酒店评论数据。

总共有28W条记录。

做某NLP任务,需要一些hotel reviews, 选择从www.booking.com搞一点数据来。
根据主页显示总共有20个城市from diferrent countries,每个城市下有若干个酒店,每个酒店下若干条评论。

〇、数据源介绍

数据源:www.booking.com
具体:

所有的城市:

1

某个城市的酒店列表:

2

某个酒店的评论:

3

一、爬取数据项:

设定一条记录有如下字段:

  • 目标酒店名target
  • 分数score
  • 总体评价overall_comment
  • 正评论positive_comment
  • 负评论negative_comment
  • 入住日期date
  • 城市名city_name

用CSV文件保存with seperator “\t”.

4

二、目录介绍:

-hotel_review_booking:hotel_data数据文件
  -hotel_review_booking:scrapy理解的项目目录
        -hotel_review_booking:scrapy的真正项目目录
        -entrypoint
        ……

三、流程:四步:

  • 新建项目 (Project):新建一个新的爬虫项目
  • 明确目标(Items):明确你想要抓取的目标
  • 制作爬虫(Spider):制作爬虫开始爬取网页
  • 存储内容(Pipeline):设计管道存储爬取内容

四、url分析:

略……

五、代码提示:

  1. 因为酒店列表不好直接显示页数,所以采取半人工手段标记页数……
    5

  2. 日期date: 使用正则匹配。

    pattern = r'(\d{4})年(\d{1,2})月(\d{1,2})日'
    pattern_compiled = re.compile(pattern)

  3. 其他也没啥的,就是scrapy的使用上,纯经验主义。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
scrapy是一个用于网站抓取和数据提取的Python框架,而微博和简书分别是一个社交媒体平台和一个知识分享平台。要使用scrapy爬取微博评论简书,可以按照以下步骤进行: 首先,需要安装好Pythonscrapy框架。可以通过安装Python的pip包管理工具,并使用pip安装scrapy。 然后,对于微博,可以通过登录微博开放平台,注册一个开发者账号,并创建一个应用。获取到应用的App Key和Secret Key,以便进行API调用。在scrapy项目的settings.py文件中添加好相应的key。 接下来,使用scrapy创建一个新的项目。可以使用命令行工具执行以下命令:scrapy startproject weibo 在项目的spiders目录下,创建一个新的spider。可以使用命令行工具执行以下命令:scrapy genspider weibo_spider "weibo.com" 编辑新创建的spider,编写爬取微博评论的代码。可以使用weibo API提供的接口进行评论爬取。 然后,启动爬虫,执行以下命令:scrapy crawl weibo_spider 在简书的情况下,可以使用简书提供的API接口进行评论的抓取。首先,需要注册一个账号,并通过简书的开发者平台获取到相应的API Key。然后,使用获取到的API Key进行API调用。 创建一个新的spider来实现对简书评论爬取,类似于上述微博的爬虫。 最后,启动爬虫,执行相应的命令来抓取简书评论。 总之,使用scrapy爬取微博评论简书可以通过利用它提供的网页抓取和数据提取功能,结合微博和简书的API进行相应的数据获取。通过上述步骤的操作,可以简单实现这个目标。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值