基于Webmagic的Java爬虫(三)爬取静态列表页

一、目标:
抓取虎扑网的列表页和文章页页面文章标题及内容

二、步骤:

  1. 点击文章页面观察文章页的 URL 特点,写出:
    文章页面的 xpath :“https:// voice\.hupu\.com/nba/[0-9]{7}\.html”
    列表页文章链接的 xpath :/html/body/div[3]/div[1]/div[2]/ul/li[2]/div[1]/h4/a
    列表页面翻页的URL:/html/body/div[3]/div[1]/div[3]/a[4]
    详情页的标题:/html/body/div[4]/div[1]/div[1]/h1 //div[@class=‘artical-title’]/h1/text()
    详情页的内容:/html/body/div[4]/div[1]/div[2] //div[@class=‘artical-main-content’]/p/text()
  2. 思路:
    ① 判断当前页面是否为文章页
    ② 若为文章页,将文章标题和内容爬取下来
    ③若不为文章页,在当前页面寻找文章页的链接地址和翻页地址,将它添加到抓取列表中

三、代码:

package byMyself;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;

/**
 * 列表页(一)
 * 抓取虎扑网的列表页和文章页页面文章标题及内容
 * 步骤:
 * 1. 判断当前页面是否为文章页
 * 2. 若为文章页,将文章标题和内容爬取下来
 * 3. 若不为文章页,在当前页面寻找文章页的链接地址和翻页地址,将它添加到抓取列表中
 * @author Ada
 *
 */
public class 
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值