最近玩一个坑爹项目,头都炸了,快写完了,来更新下.
上次写了关于CSDN单用户的所有博客数据详情的Demo,对于大多数人来说没啥卵用,没啥意思
这些写个稍微有点用的,在日常生活中,年轻人之间聊天用表情包的很多吧.是不是羡慕别人有那么多好玩的表情包?
这次来自己爬一个网站的表情包,存到本地,用的时候慢慢挑~
相关配置请直接回溯到Demo二或者Demo一进行查看,这里就不增加重复代码了
先来定义一些变量和常量,免得后面看着乱
public static InputStream inStream = null;
private static List<String> urlList;
private static Logger log = Logger.getLogger(getPicture.class);//log4j
private static int number = 1;//初始页码数
private static int endNumber = 1;//需要爬取的页码数 //最小为1
private static String START_URL = "https://www.doutula.com/article/list/?page=" + number;
private static String MAIN_START_URL = "https://www.doutula.com/article/list/?page=1";
private static Spider spider = Spider.create(new getPicture());
private Site site = Site.me()
.setDomain("www.baidu.com")
.setSleepTime(1000)//爬取休眠时间
.setCharset("utf-8")//编码集
.setRetrySleepTime(3)//设置重试次数
.setCycleRetryTimes(3)//设置循环重试次数
.addHeader("Accept-Encoding","/")
.setTimeOut(10000)//设置超时(网络不好尽可能调高,避免失败)
.setUserAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_2) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.65 Safari/537.31");
可以看到,"https://www.doutula.com/article/list/?page=" + number;这个url,就是我们获取资源的网站URL了
然后开始进行页面规则的编写
if(page.getUrl().regex("^https://www.doutula.com/article/list/\\?page=\\d*$").match()){
List<String> url = page.getHtml().xpath("*[@class=\"container_\"]/div[1]/div/div[3]/a").links().all();//标题URL
if(number > endNumber+1){
return;
}
url.add(urlList.get(number-1));
number++;
page.addTargetRequests(url);
}else {
List<String> pictureUrlList = page.getHtml().xpath("*[@class=\"container_\"]/div[1]/div[1]/div[3]/li/div[3]/div/table/tbody/tr/td/a/img/@src").all();//获取表情包详情页的图片链接
String pictureName = page.getHtml().xpath("*[@class=\"container_\"]/div[1]/div[1]/div[3]/li/div[2]/h1/a/text()").toString();
try {
downloadPicture(pictureUrlList,pictureName);
} catch (Exception e) {
e.printStackTrace();
log.error("下载图片失败" + e.getMessage());
}
页面规则还是比较简单,毕竟这个网站并没有采用ajax或者说json来渲染数据,但凡访问过去就有数据了.适合新手,很舒服
可以看到在上方代码中,我们调用了一个下载图片的方法,是将从页面解析到的图片URL加进了一个集合中,然后将集合传入了方法解析,在方法内部进行处理和下载
public void downloadPicture(List<String> urlList,String pictureName) {
for(int i = 0;i<urlList.size();i++){
String link = urlList.get(i);//获取图片链接
if(link == null || "".equals(link)){//可能混杂一些空链接.需要处理
return;
}
try {
URL url = new URL(link);
URLConnection con = url.openConnection();
inStream = con.getInputStream();
ByteArrayOutputStream outStream = new ByteArrayOutputStream();
byte[] buf = new byte[1024];
int len = 0;
while((len = inStream.read(buf)) != -1){
outStream.write(buf,0,len);
}
inStream.close();
outStream.close();
File isexits = new File("F:\\doutula\\" + pictureName);
if(!isexits.exists())
{
isexits.mkdir();
}
/**
*
* 问题解决:outputstream流不能直接创建文件夹,所以在直接写不存在的文件夹的时候会出现问题,这个时候在前面进行一个文件夹是否存在的判断,
* 若存在,直接存储不会出现问题,
* 若不存在,需要先创建一个文件夹才可以
*/
File file = new File("F:\\doutula\\" + pictureName + "\\" + i + ".jpg");
FileOutputStream op = new FileOutputStream(file);
op.write(outStream.toByteArray());
op.close();
}catch (Exception e){
log.error("下载图片出错,原因是" +e.getMessage());
log.info("出错的链接是:" + link);
}
}
}
下载路径自己修改下蛤,我测试了十多页的数据吧..来贴出来最终的结果图
好了,下面贴出类的全部代码:
package com.cn.spider.webMagicForDoutula;
import org.apache.log4j.Logger;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
import java.io.*;
import java.net.URL;
import java.net.URLConnection;
import java.util.ArrayList;
import java.util.List;
public class getPicture implements PageProcessor {
public static InputStream inStream = null;
private static List<String> urlList;
private static Logger log = Logger.getLogger(getPicture.class);//log4j
private static int number = 1;//初始页码数
private static int endNumber = 1;//需要爬取的页码数 //最小为1
private static String START_URL = "https://www.doutula.com/article/list/?page=" + number;
private static String MAIN_START_URL = "https://www.doutula.com/article/list/?page=1";
private static Spider spider = Spider.create(new getPicture());
private Site site = Site.me()
.setDomain("www.baidu.com")
.setSleepTime(1000)//爬取休眠时间
.setCharset("utf-8")//编码集
.setRetrySleepTime(3)//设置重试次数
.setCycleRetryTimes(3)//设置循环重试次数
.addHeader("Accept-Encoding","/")
.setTimeOut(10000)//设置超时(网络不好尽可能调高,避免失败)
.setUserAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_2) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.65 Safari/537.31");
@Override
public void process(Page page) {
if(page.getUrl().regex("^https://www.doutula.com/article/list/\\?page=\\d*$").match()){
List<String> url = page.getHtml().xpath("*[@class=\"container_\"]/div[1]/div/div[3]/a").links().all();//标题URL
if(number > endNumber+1){
return;
}
url.add(urlList.get(number-1));
number++;
page.addTargetRequests(url);
}else {
List<String> pictureUrlList = page.getHtml().xpath("*[@class=\"container_\"]/div[1]/div[1]/div[3]/li/div[3]/div/table/tbody/tr/td/a/img/@src").all();//获取表情包详情页的图片链接
String pictureName = page.getHtml().xpath("*[@class=\"container_\"]/div[1]/div[1]/div[3]/li/div[2]/h1/a/text()").toString();
try {
downloadPicture(pictureUrlList,pictureName);
} catch (Exception e) {
e.printStackTrace();
log.error("下载图片失败" + e.getMessage());
}
}
}
@Override
public Site getSite() {
return site;
}
public static void main(String[] args){
//初始化list表
urlList = doListUrl(endNumber);
//启动
spider
.thread(1)
.addUrl(MAIN_START_URL)
.run();
}
/**
* 手工生成listUrl表
*/
public static List<String> doListUrl(int num){
List<String> list = new ArrayList<String>();
for(int i = 1;i<=num+1;i++) {//页码从1开始
list.add("https://www.doutula.com/article/list/?page=" + (i+1));
}
return list;
}
/**
* 图片下载
*/
public void downloadPicture(List<String> urlList,String pictureName) {
for(int i = 0;i<urlList.size();i++){
String link = urlList.get(i);//获取图片链接
if(link == null || "".equals(link)){//可能混杂一些空链接.需要处理
return;
}
try {
URL url = new URL(link);
URLConnection con = url.openConnection();
inStream = con.getInputStream();
ByteArrayOutputStream outStream = new ByteArrayOutputStream();
byte[] buf = new byte[1024];
int len = 0;
while((len = inStream.read(buf)) != -1){
outStream.write(buf,0,len);
}
inStream.close();
outStream.close();
File isexits = new File("F:\\doutula\\" + pictureName);
if(!isexits.exists())
{
isexits.mkdir();
}
/**
*
* 问题解决:outputstream流不能直接创建文件夹,所以在直接写不存在的文件夹的时候会出现问题,这个时候在前面进行一个文件夹是否存在的判断,
* 若存在,直接存储不会出现问题,
* 若不存在,需要先创建一个文件夹才可以
*/
File file = new File("F:\\doutula\\" + pictureName + "\\" + i + ".jpg");
FileOutputStream op = new FileOutputStream(file);
op.write(outStream.toByteArray());
op.close();
}catch (Exception e){
log.error("下载图片出错,原因是" +e.getMessage());
log.info("出错的链接是:" + link);
}
}
}
}
嗯,就这样了,拜了个拜,爬虫的知识暂时分享到这里,准备写个自己的博客站出来玩,后面工作不忙,有时间再更自己在写博客站的时候在SpringBoot遇到的相关的坑和问题记录吧