JAVA 实现简单的网络爬虫,获取网站图片;要抓取网站的图片或是其他的,需要先分析其中的地址格式,然后在确定使用哪种方法去处理。
这个例子抓取的花瓣网上的图片;需要引入jsoup的jar包用于解析网页中元素;jsoup官方下载地址。
import java.io.BufferedReader;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.OutputStream;
import java.net.URL;
import java.net.URLConnection;
import java.nio.charset.Charset;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import org.junit.Test;
/**
* 爬取图片,并将图片下载到本地
* @author vf
*/
public class DemoDownLoadPicture {
String ALL_URL_STR = "";//保存url地址
String ALL_SRC_STR = "";//保存SRC地址
int nonameId = 1;
int record = 0;
int noPicname = 0;
/**
* 开始,入口
* 点击strat方法,右键选择run as->JUnit Test 运行程序
*
* 当前获取图片的网站为:http://huaban.com 可更改
* 存放图片的地址为 : E://crawler//pic 若无请先创建
*/
@Test
public void start(){
//要获取的网站地址
String urlStr = "http://huaban.com";
String html = getHTML(urlStr);
getURL(html, 0, "E://crawler//pic");//存放图片的地址;若无请先创建
}
/**
* 获取html网页内容
* @param urlStr
* @return
*/
public