基于Webmagic的Java爬虫（三）爬取静态列表页

最新推荐文章于 2022-05-09 22:06:44 发布

Ada5899

最新推荐文章于 2022-05-09 22:06:44 发布

阅读量1k

点赞数

分类专栏： Java爬虫（Webmagic）文章标签： Webmagic Java爬虫 Java

本文链接：https://blog.csdn.net/Ada5899/article/details/88857291

版权

一、目标：
抓取虎扑网的列表页和文章页页面文章标题及内容

二、步骤：

点击文章页面观察文章页的 URL 特点，写出：
文章页面的 xpath ：“https:// voice\.hupu\.com/nba/[0-9]{7}\.html”
列表页文章链接的 xpath ：/html/body/div[3]/div[1]/div[2]/ul/li[2]/div[1]/h4/a
列表页面翻页的URL：/html/body/div[3]/div[1]/div[3]/a[4]
详情页的标题：/html/body/div[4]/div[1]/div[1]/h1 //div[@class=‘artical-title’]/h1/text()
详情页的内容：/html/body/div[4]/div[1]/div[2] //div[@class=‘artical-main-content’]/p/text()
思路：
① 判断当前页面是否为文章页
② 若为文章页，将文章标题和内容爬取下来
③若不为文章页，在当前页面寻找文章页的链接地址和翻页地址，将它添加到抓取列表中

三、代码：

package byMyself;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;

/**
 * 列表页(一)
 * 抓取虎扑网的列表页和文章页页面文章标题及内容
 * 步骤：
 * 1. 判断当前页面是否为文章页
 * 2. 若为文章页，将文章标题和内容爬取下来
 * 3. 若不为文章页，在当前页面寻找文章页的链接地址和翻页地址，将它添加到抓取列表中
 * @author Ada
 *
 */
public class

最低0.47元/天解锁文章

Ada5899

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
基于Webmagic的Java爬虫（三）爬取静态列表页

一、目标：抓取虎扑网的列表页和文章页页面文章标题及内容二、步骤：点击文章页面观察文章页的 URL 特点，写出：文章页面的 xpath ：“https:// voice\.hupu\.com/nba/[0-9]{7}\.html”列表页文章链接的 xpath ：/html/body/div[3]/div[1]/div[2]/ul/li[2]/div[1]/h4/a列表页面翻页的URL：...
复制链接

扫一扫

专栏目录