一、案例说明
本案例以爬取某小说网站某本小说为例(PS:避免商业问题,这里不提小说网站名)
二、先期准备
关于 webmagic+Selenium 的相关依赖,参见 七、学习爬虫框架WebMagic(三)—webmagic+Selenium爬取动态页面
三、构建项目
(一)项目分析
在某小说网站找到一本小说的列表,如下:
根据页面,然后分析网页源码,可知在这个页面中,下一页的网址
和每篇文章的网址
会给出。然后,根据查询源码可知,下一页的网址
和每篇文章的网址
是通过 JS 动态加载的,所以框架选型就是 Webmagic+Selenium。
根据 Webmagic 框架的特点,只要我们定好爬取规则,它会一直爬取下去直到结束。每页和每篇文章的URL,可通过爬取每页URL抽取出来。比如我爬取第一页,我就会找到第二页的URL和第一页中所有文章的URL,爬取第二页就会找到第三页URL。以此类推,我们只要找到每页URL,即可找到该页所有文章URL和下一页URL。所以,我制定的爬取业务逻辑是:
找出页面中的所有URL(链接),然后根据翻页和每篇文章的URL的规则,设计正则表达式,对符合条件的URL进行爬取。
注意:Webmagic 框架会自动帮我们去重。比如:我们在首页会找到末页和第二页的URL,这是我们第一次访问到末页的URL。在我们遍历第二页的时候,还会找到第三页的URL,以此类推,最后我们还会找到末页URL一次,这样我们会爬取末页URL两次。但是,Webmagic 框架会记录已经爬取过的网页,再次遇到末页URL的时候,会将它剔除出去,不再爬取。
(二)代码
1、爬取业务规则
package org.pc.exercise;
import org.pc.webmagic.update.SeleniumDownloader;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.springframework.util.CollectionUtils;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.selector.Html;
import java.util.List;
import java.util.regex.Pattern;
/**
* @author 咸鱼
* @date 2018/12/31 10:13
*/
public class NovelPageProcessorInBiQuGe implements PageProcessor {
private final Logger LOGGER = LoggerFactory.getLogger(this.getClass());
/**
* 每页URL正则
*/
private static final String CHAPTER_URL = "http://m.biquyun.com/1_1559_\\d+/";
/**
* 每篇文章URL正则
*/
private static final String CONTENT_URL = "http://m.biquyun.com/wapbook/1559_\\d+\\.html";
private Pattern chapterPattern = Pattern.compile(CHAPTER_URL);
private Pattern contentPattern = Pattern.compile(CONTENT_URL);
private Site site;
/**
* 目标URL
*/
private static final String NOVEL_URL = "http://m.biquyun.com/1_1559_1/";
@Override
public void process(Page page) {
String url = page.getUrl().toString();
if (chapterPattern.matcher(url).find()){
chapterProcess(page);
} else if (contentPattern.matcher(url).find()){
contentProcess(page);
} else {
LOGGER.info("该URL:" + url + "不是目标路径");
}
}
/**
* 取出每章节中章节名,小说的内容
* @param page
*/
private void contentProcess(Page page) {
Html pageHtml = page.getHtml();
String bookName = pageHtml.xpath("//h1[@id='chaptertitle']/text()").toString();
String content = pageHtml.xpath("//div[@id='novelcontent']/p/text()").toString();
page.putField("bookName", bookName);
page.putField("content", content);
}
/**
* 取出小说章节列表中所有章节地址,并放进爬取队列
*/
private void chapterProcess(Page page) {
Html pageHtml = page.getHtml();
//取出所有链接
List<String> links = pageHtml.links().all();
if (!CollectionUtils.isEmpty(links)){
links.forEach((link) -> {
//只有每页URL和每篇文章的URL才会进行爬取
if (chapterPattern.matcher(link).find() || contentPattern.matcher(link).find()) {
page.addTargetRequest(link);
}
});
} else {
LOGGER.warn("没有取到小说章节地址!");
}
}
@Override
public Site getSite() {
if (site == null) {
site = Site.me().setDomain("http://m.biquyun.com/")
.setSleepTime(1000).setCycleRetryTimes(3);
}
return site;
}
public static void main(String[] args) {
Spider.create(new NovelPageProcessorInBiQuGe())
.addUrl(NOVEL_URL)
//自定义Pipeline,需设置文件输出地址
.addPipeline(new NovelFilePipeline("E:\\demo\\novel"))
//修改后的SeleniumDownloader
.setDownloader(new SeleniumDownloader("E:\\demo\\crawler\\chromedriver.exe"))
.thread(5)
.run();
}
}
2、处理规则(输出到文件)
package org.pc.exercise;
import com.sun.xml.internal.stream.writers.UTF8OutputStreamWriter;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.springframework.util.StringUtils;
import us.codecraft.webmagic.ResultItems;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.pipeline.Pipeline;
import us.codecraft.webmagic.utils.FilePersistentBase;
import java.io.*;
/**
* @author 咸鱼
* @date 2018/12/31 11:02
*/
public class NovelFilePipeline extends FilePersistentBase implements Pipeline {
private Logger logger = LoggerFactory.getLogger(getClass());
public NovelFilePipeline() {
setPath("E:\\demo\\novel");
}
public NovelFilePipeline(String path) {
setPath(path);
}
@Override
public void process(ResultItems resultItems, Task task) {
String bookName = resultItems.get("bookName");
String rawContent = resultItems.get("content");
if (StringUtils.isEmpty(bookName) || StringUtils.isEmpty(rawContent)){
return;
}
//将空格替换成换行
String content = rawContent.replace(" ", "\r\n\t");
String path = this.path + PATH_SEPERATOR + bookName + ".txt";
PrintWriter writer = null;
try {
writer = new PrintWriter(new UTF8OutputStreamWriter(new FileOutputStream(getFile(path))));
writer.print(content);
writer.flush();
} catch (IOException e) {
e.printStackTrace();
} finally {
if (writer != null) {
writer.close();
}
}
}
}