用WebCollector爬取整站图片,只需要遍历整站页面,然后将URL为.jpg、gif的页面(文件)保存到本地即可。
例如我们爬取一个美食网站,获取里面所有的图片:
import cn.edu.hfut.dmic.webcollector.crawler.BreadthCrawler;
import cn.edu.hfut.dmic.webcollector.model.Page;
import cn.edu.hfut.dmic.webcollector.util.FileUtils;
import java.io.IOException;
import java.util.concurrent.atomic.AtomicInteger;
import java.util.regex.Pattern;
/**
* 用WebCollector爬虫爬取整站图片
*/
public class PicCrawler extends BreadthCrawler{
/*用一个整数,不断自增,来作为下载的图片的文件名*/
AtomicInteger id=new AtomicInteger(0);
@Override
public void visit(Page page) {
/*不处理非jpg的网页/文件*/
if(!Pattern.matches(".*jpg$",page.getUrl())){
return;
}
/*将图片内容保存到文件,page.getContent()获取的是文件的byte数组*/
try {
FileUtils.writeFileWithParent("download/"+id.incrementAndGet()+&#