利用jsoup 如何从网页中下载图片

最新推荐文章于 2024-03-27 07:15:00 发布

robinliu2010

最新推荐文章于 2024-03-27 07:15:00 发布

阅读量799

点赞数

分类专栏： JAVA JSOUP 学习机器人文章标签： html解析器 url string html file jquery

JAVA 同时被 3 个专栏收录

68 篇文章 0 订阅

订阅专栏

学习机器人

22 篇文章 0 订阅

订阅专栏

JSOUP

19 篇文章 0 订阅

订阅专栏

来自： http://www.open-open.com/bbs/view/1320576549952

如何从网页中下载图片

如果做为爬虫很有必要从网页中下载图片到本地，那么我们利用jsoup来进行该操作，jsoup 是一个很不错的html解析器。下面是它的简介：

jsoup 是一款 Java 的HTML 解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于JQuery的操作方法来取出和操作数据。

jsoup的主要功能如下：

从一个URL，文件或字符串中解析HTML；
使用DOM或CSS选择器来查找、取出数据；
可操作HTML元素、属性、文本；

jsoup是基于MIT协议发布的，可放心使用于商业项目。

网页中下载图片需要这么两步操作

1.获取绝对路径

很多网页中用的是相对路径，因此获取图片的绝对路径很重要

方法一：我们就利用jsoup来获取

        
     1Element image = document.select("img").first();
 
     2String url = image.absUrl("src");
 
     3// url = http://www.example.com/images/chicken.jpg

或者

 
     01String url = image.attr("abs:src");
 
     02他们的前提利用connect方式获取而不是文件方式 
 
     03Document doc = Jsoup.connect("http://jsoup.org").get();
 
     04Element link = doc.select("a").first();
 
     05String relHref = link.attr("href");// == "/" 
 
     06String absHref = link.attr("abs:href");// "http://jsoup.org/" 
 
     07方法二：利用jdk中url 
 
     08URL url  = newURL("http://www.example.com/index.html");
 
     09URI uri = url.toURI(); 
 
     10System.out.println(uri.resolve("images/chicken.jpg").toString());

2.第二步则就是下载图片

 
     01URL   url   =   new  URL( "图片地址"); 
 
     02URLConnection   uc   =   url.openConnection(); 
 
     03InputStream   is   =   uc.getInputStream(); 
 
     04File   file   =   new  File( "本地路径 "); 
 
     05FileOutputStream   out   =    new   FileOutputStream(file); 
 
     06int    i=0;  
 
     07while    ((i=is.read())!=-1)   { 
 
     08out.write(i);  
 
     09}  
 
     10is.close();

本站翻译的：jsoup的官方教程

robinliu2010

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
利用jsoup 如何从网页中下载图片

来自：http://www.open-open.com/bbs/view/1320576549952如何从网页中下载图片如果做为爬虫很有必要从网页中下载图片到本地，那么我们利用jsoup来进行该操作，jsoup 是一个很不错的html解析器。下面是它的简介：jsoup 是一款 Java 的HTML 解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可
复制链接

扫一扫

专栏目录