WebMagic爬虫Demo(四) - 爬点表情包(斗图网)_wenmagic深度爬取demo-CSDN博客

本文链接：https://blog.csdn.net/Zachariahs/article/details/83374736

最近玩一个坑爹项目,头都炸了,快写完了,来更新下.

上次写了关于CSDN单用户的所有博客数据详情的Demo,对于大多数人来说没啥卵用,没啥意思

这些写个稍微有点用的,在日常生活中,年轻人之间聊天用表情包的很多吧.是不是羡慕别人有那么多好玩的表情包?

这次来自己爬一个网站的表情包,存到本地,用的时候慢慢挑~

相关配置请直接回溯到Demo二或者Demo一进行查看,这里就不增加重复代码了

先来定义一些变量和常量,免得后面看着乱

public static InputStream inStream = null;
    private static List<String> urlList;
    private static Logger log = Logger.getLogger(getPicture.class);//log4j
    private static int number = 1;//初始页码数
    private static int endNumber = 1;//需要爬取的页码数 //最小为1
    private static String START_URL = "https://www.doutula.com/article/list/?page=" + number;
    private static String MAIN_START_URL = "https://www.doutula.com/article/list/?page=1";
    private static Spider spider = Spider.create(new getPicture());
    private Site site = Site.me()
            .setDomain("www.baidu.com")
            .setSleepTime(1000)//爬取休眠时间
            .setCharset("utf-8")//编码集
            .setRetrySleepTime(3)//设置重试次数
            .setCycleRetryTimes(3)//设置循环重试次数
            .addHeader("Accept-Encoding","/")
            .setTimeOut(10000)//设置超时(网络不好尽可能调高,避免失败)
            .setUserAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_2) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.65 Safari/537.31");

可以看到,"https://www.doutula.com/article/list/?page=" + number;这个url,就是我们获取资源的网站URL了

然后开始进行页面规则的编写

if(page.getUrl().regex("^https://www.doutula.com/article/list/\\?page=\\d*$").match()){
            List<String> url = page.getHtml().xpath("*[@class=\"container_\"]/div[1]/div/div[3]/a").links().all();//标题URL
            if(number > endNumber+1){
                return;
            }
            url.add(urlList.get(number-1));
            number++;
            page.addTargetRequests(url);
        }else {
            List<String> pictureUrlList = page.getHtml().xpath("*[@class=\"container_\"]/div[1]/div[1]/div[3]/li/div[3]/div/table/tbody/tr/td/a/img/@src").all();//获取表情包详情页的图片链接
            String pictureName = page.getHtml().xpath("*[@class=\"container_\"]/div[1]/div[1]/div[3]/li/div[2]/h1/a/text()").toString();
            try {
                downloadPicture(pictureUrlList,pictureName);
            } catch (Exception e) {
                e.printStackTrace();
                log.error("下载图片失败" + e.getMessage());
            }

页面规则还是比较简单,毕竟这个网站并没有采用ajax或者说json来渲染数据,但凡访问过去就有数据了.适合新手,很舒服

可以看到在上方代码中,我们调用了一个下载图片的方法,是将从页面解析到的图片URL加进了一个集合中,然后将集合传入了方法解析,在方法内部进行处理和下载

public void downloadPicture(List<String> urlList,String pictureName) {
        for(int i = 0;i<urlList.size();i++){
            String link = urlList.get(i);//获取图片链接
            if(link == null || "".equals(link)){//可能混杂一些空链接.需要处理
                return;
            }
            try {
                URL url = new URL(link);
                URLConnection con = url.openConnection();
                inStream = con.getInputStream();
                ByteArrayOutputStream outStream = new ByteArrayOutputStream();
                byte[] buf = new byte[1024];
                int len = 0;
                while((len = inStream.read(buf)) != -1){
                    outStream.write(buf,0,len);
                }
                inStream.close();
                outStream.close();
                File isexits = new File("F:\\doutula\\" + pictureName);
                if(!isexits.exists())
                {
                    isexits.mkdir();
                }
                /**
                 *
                 * 问题解决:outputstream流不能直接创建文件夹,所以在直接写不存在的文件夹的时候会出现问题,这个时候在前面进行一个文件夹是否存在的判断,
                 * 若存在,直接存储不会出现问题,
                 * 若不存在,需要先创建一个文件夹才可以
                 */
                File file = new File("F:\\doutula\\" + pictureName + "\\" + i + ".jpg");
                FileOutputStream op = new FileOutputStream(file);
                op.write(outStream.toByteArray());
                op.close();
            }catch (Exception e){
                log.error("下载图片出错,原因是" +e.getMessage());
                log.info("出错的链接是:" + link);
            }
        }
    }

下载路径自己修改下蛤,我测试了十多页的数据吧..来贴出来最终的结果图

好了,下面贴出类的全部代码:

package com.cn.spider.webMagicForDoutula;

import org.apache.log4j.Logger;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;

import java.io.*;
import java.net.URL;
import java.net.URLConnection;
import java.util.ArrayList;
import java.util.List;


public class getPicture implements PageProcessor {
    public static InputStream inStream = null;
    private static List<String> urlList;
    private static Logger log = Logger.getLogger(getPicture.class);//log4j
    private static int number = 1;//初始页码数
    private static int endNumber = 1;//需要爬取的页码数 //最小为1
    private static String START_URL = "https://www.doutula.com/article/list/?page=" + number;
    private static String MAIN_START_URL = "https://www.doutula.com/article/list/?page=1";
    private static Spider spider = Spider.create(new getPicture());
    private Site site = Site.me()
            .setDomain("www.baidu.com")
            .setSleepTime(1000)//爬取休眠时间
            .setCharset("utf-8")//编码集
            .setRetrySleepTime(3)//设置重试次数
            .setCycleRetryTimes(3)//设置循环重试次数
            .addHeader("Accept-Encoding","/")
            .setTimeOut(10000)//设置超时(网络不好尽可能调高,避免失败)
            .setUserAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_2) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.65 Safari/537.31");

    @Override
    public void process(Page page) {
        if(page.getUrl().regex("^https://www.doutula.com/article/list/\\?page=\\d*$").match()){
            List<String> url = page.getHtml().xpath("*[@class=\"container_\"]/div[1]/div/div[3]/a").links().all();//标题URL
            if(number > endNumber+1){
                return;
            }
            url.add(urlList.get(number-1));
            number++;
            page.addTargetRequests(url);
        }else {
            List<String> pictureUrlList = page.getHtml().xpath("*[@class=\"container_\"]/div[1]/div[1]/div[3]/li/div[3]/div/table/tbody/tr/td/a/img/@src").all();//获取表情包详情页的图片链接
            String pictureName = page.getHtml().xpath("*[@class=\"container_\"]/div[1]/div[1]/div[3]/li/div[2]/h1/a/text()").toString();
            try {
                downloadPicture(pictureUrlList,pictureName);
            } catch (Exception e) {
                e.printStackTrace();
                log.error("下载图片失败" + e.getMessage());
            }
        }

    }

    @Override
    public Site getSite() {
        return site;
    }

    public static void main(String[] args){
        //初始化list表
        urlList = doListUrl(endNumber);
        //启动
        spider
                .thread(1)
                .addUrl(MAIN_START_URL)
                .run();
    }

    /**
     * 手工生成listUrl表
     */
    public static List<String> doListUrl(int num){
        List<String> list = new ArrayList<String>();
        for(int i = 1;i<=num+1;i++) {//页码从1开始
            list.add("https://www.doutula.com/article/list/?page=" + (i+1));
        }
        return list;
    }

    /**
     * 图片下载
     */
    public void downloadPicture(List<String> urlList,String pictureName) {
        for(int i = 0;i<urlList.size();i++){
            String link = urlList.get(i);//获取图片链接
            if(link == null || "".equals(link)){//可能混杂一些空链接.需要处理
                return;
            }
            try {
                URL url = new URL(link);
                URLConnection con = url.openConnection();
                inStream = con.getInputStream();
                ByteArrayOutputStream outStream = new ByteArrayOutputStream();
                byte[] buf = new byte[1024];
                int len = 0;
                while((len = inStream.read(buf)) != -1){
                    outStream.write(buf,0,len);
                }
                inStream.close();
                outStream.close();
                File isexits = new File("F:\\doutula\\" + pictureName);
                if(!isexits.exists())
                {
                    isexits.mkdir();
                }
                /**
                 *
                 * 问题解决:outputstream流不能直接创建文件夹,所以在直接写不存在的文件夹的时候会出现问题,这个时候在前面进行一个文件夹是否存在的判断,
                 * 若存在,直接存储不会出现问题,
                 * 若不存在,需要先创建一个文件夹才可以
                 */
                File file = new File("F:\\doutula\\" + pictureName + "\\" + i + ".jpg");
                FileOutputStream op = new FileOutputStream(file);
                op.write(outStream.toByteArray());
                op.close();
            }catch (Exception e){
                log.error("下载图片出错,原因是" +e.getMessage());
                log.info("出错的链接是:" + link);
            }
        }
    }

}

嗯,就这样了,拜了个拜,爬虫的知识暂时分享到这里,准备写个自己的博客站出来玩,后面工作不忙,有时间再更自己在写博客站的时候在SpringBoot遇到的相关的坑和问题记录吧