JAVA 实现简单的网络爬虫，获取网站图片

最新推荐文章于 2024-06-27 15:32:41 发布

起岸星辰

最新推荐文章于 2024-06-27 15:32:41 发布

阅读量1.4k

点赞数

分类专栏： Java 文章标签： java 网络爬虫 jsoup

本文链接：https://blog.csdn.net/Vchar_Fred/article/details/53820267

版权

本文介绍如何利用JAVA和jsoup库实现简单的网络爬虫，从花瓣网上抓取图片。首先分析图片URL格式，然后通过jsoup解析网页元素获取图片链接。

摘要由CSDN通过智能技术生成

JAVA 实现简单的网络爬虫，获取网站图片；要抓取网站的图片或是其他的，需要先分析其中的地址格式，然后在确定使用哪种方法去处理。

这个例子抓取的花瓣网上的图片；需要引入jsoup的jar包用于解析网页中元素；jsoup官方下载地址。

import java.io.BufferedReader;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.OutputStream;
import java.net.URL;
import java.net.URLConnection;
import java.nio.charset.Charset;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import org.junit.Test;
/**
 * 爬取图片，并将图片下载到本地
 * @author vf
 */
public class DemoDownLoadPicture {
	String ALL_URL_STR = "";//保存url地址
	String ALL_SRC_STR = "";//保存SRC地址
	int nonameId = 1;
	int record = 0;
	int noPicname = 0;
	/**
	 * 开始，入口
	 * 点击strat方法，右键选择run as->JUnit Test 运行程序
	 * 
	 * 当前获取图片的网站为：http://huaban.com  可更改
	 * 存放图片的地址为 ： E://crawler//pic    若无请先创建
	 */
	@Test
	public void start(){
		//要获取的网站地址
		String urlStr = "http://huaban.com";
		String html = getHTML(urlStr);
		getURL(html, 0, "E://crawler//pic");//存放图片的地址；若无请先创建
	}
	
	/**
	 * 获取html网页内容
	 * @param urlStr
	 * @return
	 */
	public