java爬虫 京东_教您使用java爬虫gecco抓取JD全部商品信息(一)

本文介绍了如何使用Java爬虫gecco抓取京东网站上的全部商品信息。通过分析京东网站结构,从入口地址http://www.jd.com/allSort.aspx开始,抓取手机和家用电器两大类的商品信息。文章讲解了gecco爬虫的基本用法,以及通过CSS Path获取页面元素的技巧,并展示了如何编写处理类来处理抓取到的数据。
摘要由CSDN通过智能技术生成

#教您使用java爬虫gecco抓取JD全部商品信息(一) ##gecco爬虫 如果对gecco还没有了解可以参看一下gecco的github首页。gecco爬虫十分的简单易用,JD全部商品信息的抓取9个类就能搞定。 ##JD网站的分析 要抓取JD网站的全部商品信息,我们要先分析一下网站,京东网站可以大体分为三级,首页上通过分类跳转到商品列表页,商品列表页对每个商品有详情页。那么我们通过找到所有分类就能逐个分类抓取商品信息。 ##入口地址 http://www.jd.com/allSort.aspx,这个地址是JD全部商品的分类列表,我们以该页面作为开始页面,抓取JD的全部商品信息 ###新建开始页面的HtmlBean类AllSort

@Gecco(matchUrl="http://www.jd.com/allSort.aspx", pipelines={"consolePipeline", "allSortPipeline"})

public class AllSort implements HtmlBean {

private static final long serialVersionUID = 665662335318691818L;

@Request

private HttpRequest request;

//手机

@HtmlField(cssPath=".category-items > div:nth-child(1) > div:nth-child(2) > div.mc > div.items > dl")

private List mobile;

//家用电器

@HtmlField(cssPath="

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值