对于给定的大量APP,如何爬取与之对应的(应用市场)分类、描述的信息?且看下面分解。
1. 页面分析
当我们在豌豆荚首页搜索框输入微信后,会跳转到搜索结果的页面,其url为http://www.wandoujia.com/search?key=%微信。搜索结果一般是按相关性排序的;所以,我们认为第一条搜索结果为所需要爬取的。紧接着,点进去后会跳转到页面http://www.wandoujia.com/apps/com.tencent.mm,我们会发现豌豆荚的APP的详情页,是www.wandoujia.com/apps/ + APP package组成。
让我们退回到搜索结果页面,分析页面元素,如图:
所有搜索结果在
- 无序列表标签中,每一个搜索结果在
- 标签中。对应地,CSS选择器应为
'#j-search-list>li::attr(data-pn)'
接下来,我们来分析APP的详情页,APP的名称所对应的HTML元素如图:
APP类别的如图:
APP描述的如图:
不难得到这三类元素所对应的CSS选择器
.app-name>