java使用jsoup,多线程批量爬取天极网某分类下的美女图片

原创 2017年02月09日 09:31:30

本例子只作为测试,页面个数直接设置了100个,可以可能会少或者多,容易报错,更优化的一种方式是获取“下一页”按钮的地址,然后再访问,当访问不到“下一页”的内容时跳出

多线程只体现在文件提取,也可以在elements循环中再加一个多线程访问页面的

本案例需要jsoup包的支持,可到下方url下载

jsoup jar包

Test.java==============>主方法

package com.test.main;

import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStream;
import java.net.MalformedURLException;
import java.net.URL;
import java.net.URLConnection;
import java.util.ArrayList;
import java.util.List;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class Test {
	public static void main(String[] args) {
		ExecutorService executor = Executors.newFixedThreadPool(5);
		Document doc = null;
		FileWriter writer = null;
		String rui="index";
		List<String> alist = new  ArrayList<String>();
		//int keyword = 4;
		for(int keyword=4;keyword<100;keyword++){
		try {
			//创建页面对象
			doc = Jsoup.connect("http://pic.yesky.com/c/6_20491_"+keyword+".shtml").userAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.95 Safari/537.36").timeout(10000).get();
			//根据标签和class id获取元素
			Elements div = doc.select("div.lb_box");
			//根据标签获取元素
			Elements dl = div.select("dl");
			Elements dd = div.select("dd");
			Elements pages = dd.select("a");
			for(Element e : pages){
				System.out.println(e.text());
				System.out.println(e.attr("href"));
				Document imgdoc = Jsoup.connect(e.attr("href")).userAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.95 Safari/537.36").timeout(10000).get();	
				Elements scroll = imgdoc.select("div.effect_scroll");
				Elements li = scroll.select("li");
				Elements urls = li.select("a");
				int i=0;
				for(Element ipage : urls){
					Document imgpage = Jsoup.connect(ipage.attr("href")).userAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.95 Safari/537.36").timeout(10000).get();	
					Elements imgediv = imgpage.select("div.l_effect_img_mid");
					Element img = imgediv.select("img").first();
					FileOutUtils fo =new FileOutUtils(img, e.text());
					fo.start();
					System.out.println(i);
					i++;
				}
			}
		} catch (IOException e) {
			e.printStackTrace();
		}
		}
	}
	/**
	 * 单线程下载
	 * @author lcx 
	 * @param e
	 * @param filepath
	 */
	public static void savefile(Element e,String filepath){
        String src=e.attr("src");//获取img中的src路径
        // System.out.println(src);
        //获取后缀名
        String imageName = src.substring(src.lastIndexOf("/") + 1,src.length());
        //连接url
        
        URL url;
        System.out.println(src);
		try {
			url = new URL(src);
			URLConnection uri=url.openConnection();
	        //获取数据流
	        InputStream is=uri.getInputStream();
	        //写入数据流
	        File file = new File("E://imgs//"+filepath);
	        if(!file.exists()){
	        	file.mkdirs();
	        }
	        OutputStream os = new FileOutputStream(new File("E://imgs//"+filepath+"//", imageName)); 

	        byte[] buf = new byte[1024]; 

			int l=0; 

			while((l=is.read(buf))!=-1){
				os.write(buf, 0, l);
			} 
		} catch (MalformedURLException e1) {
			e1.printStackTrace();
		} catch (FileNotFoundException e1) {
			e1.printStackTrace();
		} catch (IOException e1) {
			e1.printStackTrace();
		}
	}
}

FileOutUtils.java  ==============>多线程保存到本地

package com.test.main;

import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStream;
import java.net.MalformedURLException;
import java.net.URL;
import java.net.URLConnection;

import org.jsoup.nodes.Element;

public class FileOutUtils extends Thread {
	private Element e;
	private String filepath;
	
	
	
	public FileOutUtils(Element e, String filepath) {
		this.e = e;
		this.filepath = filepath;
	}
	/**
	 * 多线程下载
	 * @author lcx 
	 * @param e
	 * @param filepath
	 */
	public void savefile(Element e,String filepath){
        String src=e.attr("src");//获取img中的src路径
        // System.out.println(src);
        //获取后缀名
        String imageName = src.substring(src.lastIndexOf("/") + 1,src.length());
        //连接url
        URL url;
		try {
			url = new URL(src);
			URLConnection uri=url.openConnection();
	        //获取数据流
	        InputStream is=uri.getInputStream();
	        //写入数据流
	        File file = new File("E://imgs//"+filepath);
	        if(!file.exists()){
	        	file.mkdirs();
	        }
	        OutputStream os = new FileOutputStream(new File("E://imgs//"+filepath+"//", imageName)); 
	        byte[] buf = new byte[1024]; 
			int l=0; 
			while((l=is.read(buf))!=-1){
				os.write(buf, 0, l);
			} 

		} catch (MalformedURLException e1) {
			e1.printStackTrace();
		} catch (FileNotFoundException e1) {
			e1.printStackTrace();
		} catch (IOException e1) {
			e1.printStackTrace();
		}
	}
	public void run() {
		this.savefile(this.e,this.filepath);
	}
}


版权声明:本文为博主原创文章,未经博主允许不得转载。

网络采集器Demo:Jsoup+Java多线程实现[爬虫](上)

ailab-mltk:http://blog.csdn.net/qdhy199148/article/details/49403585 里面最简单,但是很常用的一个部分,就是网络爬虫,从网页上获取文本...
  • qdhy199148
  • qdhy199148
  • 2015年11月01日 00:01
  • 2872

简单多线程爬虫+Jsoup分析

使用简单多线程和Jsoup分析,得到CSDN的首页的所有子网页连接。 运行效果如下图 ---------------------------------------------------...
  • sinat_32588261
  • sinat_32588261
  • 2017年06月13日 23:50
  • 1178

利用jsoup爬取百度网盘资源分享连接(多线程)

用jsoup抓取百度网盘资源链接,并用java实现多线程抓取,提高效率,同时用关键字和正则表达式过滤垃圾链接。...
  • ldldong
  • ldldong
  • 2014年10月28日 09:47
  • 4032

多线程爬虫

  • 2015年10月27日 11:41
  • 7KB
  • 下载

利用 Jsoup 和 多线程下载旺旺英语MP3

import java.io.IOException; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsou...
  • kanglecjr
  • kanglecjr
  • 2015年02月16日 23:42
  • 1543

网络采集器Demo:Jsoup+Java多线程实现[爬虫](下)

ailab-mltk:http://blog.csdn.net/qdhy199148/article/details/49403585 下半部分主要是介绍Java的多线程编程。 我们得到了所有的有效链...
  • qdhy199148
  • qdhy199148
  • 2015年11月14日 20:53
  • 1738

利用Jsoup爬取一组图片

package mySource; import java.io.FileNotFoundException; import java.io.FileOutputStream; impo...
  • shb19891
  • shb19891
  • 2014年02月24日 09:52
  • 1226

java使用jsoup,多线程批量爬取天极网某分类下的美女图片

本例子只作为测试,页面个数直接设置了100个,可以可能会少或者多,容易报错,更优化的一种方式是获取“下一页”按钮的地址,然后再访问,当访问不到“下一页”的内容时跳出 多线程只体现在文件提取,也可以在...
  • u010121228
  • u010121228
  • 2017年02月09日 09:31
  • 691

关于JAVA的多线程爬虫

前言以前喜欢python的爬虫是出于他的简洁,但到了后期需要更快,更大规模的爬虫的时候,我才渐渐意识到java的强大。Java有一个很好的机制,就是多线程。而且Java的代码效率执行起来要比pytho...
  • qq_30843221
  • qq_30843221
  • 2016年09月09日 14:30
  • 821

Python 爬虫多线程爬取美女图片保存到本地

Wanning 我们不是生产者,我们只是搬运工 资源来至于qiubaichengren ,代码基于Python 3.5.2 友情提醒:血气方刚的骚年。请谨慎 阅图 !!! 谨慎 阅图 !!! ...
  • cch1024
  • cch1024
  • 2017年01月18日 15:24
  • 2945
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:java使用jsoup,多线程批量爬取天极网某分类下的美女图片
举报原因:
原因补充:

(最多只允许输入30个字)