一、目标:
抓取虎扑网的列表页和文章页页面文章标题及内容
二、步骤:
- 点击文章页面观察文章页的 URL 特点,写出:
文章页面的 xpath :“https:// voice\.hupu\.com/nba/[0-9]{7}\.html”
列表页文章链接的 xpath :/html/body/div[3]/div[1]/div[2]/ul/li[2]/div[1]/h4/a
列表页面翻页的URL:/html/body/div[3]/div[1]/div[3]/a[4]
详情页的标题:/html/body/div[4]/div[1]/div[1]/h1 //div[@class=‘artical-title’]/h1/text()
详情页的内容:/html/body/div[4]/div[1]/div[2] //div[@class=‘artical-main-content’]/p/text() - 思路:
① 判断当前页面是否为文章页
② 若为文章页,将文章标题和内容爬取下来
③若不为文章页,在当前页面寻找文章页的链接地址和翻页地址,将它添加到抓取列表中
三、代码:
package byMyself;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
/**
* 列表页(一)
* 抓取虎扑网的列表页和文章页页面文章标题及内容
* 步骤:
* 1. 判断当前页面是否为文章页
* 2. 若为文章页,将文章标题和内容爬取下来
* 3. 若不为文章页,在当前页面寻找文章页的链接地址和翻页地址,将它添加到抓取列表中
* @author Ada
*
*/
public class