python应用市场app爬虫_【Python实战】Scrapy豌豆荚应用市场爬虫

本文介绍了如何使用Python的Scrapy框架爬取豌豆荚应用市场的APP信息,包括APP的分类、描述等。首先分析了搜索结果和详情页的HTML结构,确定了CSS选择器。接着,编写了Scrapy爬虫,处理了URL编码和数据清洗,实现了从APP名称到详情页的跳转,并通过Pipeline处理爬取结果,避免重复并将其序列化为Json文件。
摘要由CSDN通过智能技术生成

对于给定的大量APP,如何爬取与之对应的(应用市场)分类、描述的信息?且看下面分解。

1. 页面分析

当我们在豌豆荚首页搜索框输入微信后,会跳转到搜索结果的页面,其url为http://www.wandoujia.com/search?key=%微信。搜索结果一般是按相关性排序的;所以,我们认为第一条搜索结果为所需要爬取的。紧接着,点进去后会跳转到页面http://www.wandoujia.com/apps/com.tencent.mm,我们会发现豌豆荚的APP的详情页,是www.wandoujia.com/apps/ + APP package组成。

让我们退回到搜索结果页面,分析页面元素,如图:

d7c2d5d444052df591c3194e596a3e21.png

所有搜索结果在

  • 无序列表标签中,每一个搜索结果在
  • 标签中。对应地,CSS选择器应为

    '#j-search-list>li::attr(data-pn)'

    接下来,我们来分析APP的详情页,APP的名称所对应的HTML元素如图:

    febf790f7c8d250b6570eb4499639e98.png

    APP类别的如图:

    342ca30396773840e479d9d11076266f.png

    APP描述的如图:

    1cce3d40dfe2107152f012386348735d.png

    不难得到这三类元素所对应的CSS选择器

    .app-name>

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值