【Digger爬虫系列】用Digger抓取taptap游戏排行榜

本文介绍了如何使用Digger爬虫抓取Taptap游戏下载排行榜。详细解析了排行榜的DOM结构,并给出了配置示例,包括列表页和详情页的CSS选择器。还提到了Digger爬虫系统的特性,如分布式、插件功能、在线调试和结果处理。由于Taptap的分页机制,Digger的插件功能显得尤为重要。
摘要由CSDN通过智能技术生成

TapTap是一个推荐高品质手游的手游分享社区,实时同步全球各大应用市场游戏排行榜,与全球玩家共同交流并发掘高品质手游。

taptap排行榜的抓取稍微有点绕,让我门分析下它的排行榜如何抓取吧!

首先起始页面的地址为:https://www.taptap.com/top/download

排行榜是一个典型的列表+详情结构

列表页如下

微信截图_20200918105434.png

chrome浏览器按f12打开调试,定位到列表的dom,可以发现,列表的样式为一个div,div上有一个名为taptap-top-card的class
如下:

微信截图_20200918105834.png

因此,digger爬虫配置中的list_css为:

list_css: div.taptap-top-card

同上,我们拿到详情页的链接地址的css选择器:
div.top-card-middle>a

列表页的配置就可以是这样的:

- name: list_games
  is_list: true
  is_unique: false
  list_xpath: ""
  list_css: div.taptap-top-card
  page_xpath: ""
  page_css: ""
  page_attr: ""
  plugin: extract_html@s2
  fields:
  - name: game_url
    is_array: false
    is_html: false
    xpath: ""
    css: div.top-card-middle>a
    attr: href
    plugin: ""
    remark: ""
    next_stage: game_detail

根据详情页地址,我们就可以继续定义一个详情页的stage,来爬取游戏详情,css选择器的操作同上,最终得到一个配置文件如下:

start_urls:
- https://www.taptap.com/ajax/top/download?total=30&page=1
start_stage: list_games
stages:
- name: list_games
  is_list: true
  is_unique: false
  list_xpath: ""
  list_css: div.taptap-top-card
  page_xpath: ""
  page_css: ""
  page_attr: ""
  plugin: extract_html@s2
  fields:
  - name: game_url
    is_array: false
    is_html: false
    xpath: ""
    css: div.top-card-middle>a
    attr: href
    plugin: ""
    remark: ""
    next_stage: game_detail
- name: 
  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值