java小工具:通过URL连接爬取资源(图片)

java语言编写一个简单爬取网站图片工具,实现简单:

  • 通过 java.net.HttpURLConnection 获取一个URL连接
  • HttpURLConnection 连接成功返回一个java.io.InputStream,通过InputStream读取图片放入到字节数组buff
  • 通过BufferedOutputStream(new FileOutputStream(new File("TEST.jpg"))) 形式 将内存buff里的图片数据写入到test.jpg文件中

给出工具类的CatchIMG.java代码如下:

/**   
* @Title: CatchIMG.java 
* @Package web1203.tools 
* @Description: TODO(用一句话描述该文件做什么) 
* @author penny  
* @date 2017年12月3日 下午9:00:05 
* @version V1.0   
*/
package web1203.tools;

import java.io.BufferedInputStream;
import java.io.BufferedOutputStream;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStream;
import java.net.HttpURLConnection;
import java.net.MalformedURLException;
import java.net.URL;

/** 
 * @ClassName: CatchIMG 
 * @Description: 爬取一个指定地址的网络图片
 * @author penny
 * @date 2017年12月3日 下午9:00:05 
 * 
 */
public class CatchIMG {

    /**
     * 
     * @Title: getImg 
     * @Description: 通过一个url 去获取图片
     * @param @param url 图片的连接地址
     * @param @throws IOException    
     * @throws
     */
    public static void getImg(String url) throws IOException{
        long startTime = System.currentTimeMillis();
        URL imgURL = new URL(url.trim());//转换URL
        HttpURLConnection urlConn = (HttpURLConnection) imgURL.openConnection();//构造连接
        urlConn.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.79 Safari/537.36");
        urlConn.connect();
        System.out.println(CatchIMG.class.toString()+":获取连接="+urlConn.getResponseMessage());
        if(urlConn.getResponseCode()==200){//返回的状态码是200 表示成功
            InputStream ins = urlConn.getInputStream(); //获取输入流,从网站读取数据到 内存中
            OutputStream out = new BufferedOutputStream(new FileOutputStream(new File("TEST.jpg")));
            int len=0;
            byte[] buff = new byte[1024*10];//10k缓冲流 视你内存大小而定咯
            
            while(-1!=(len=(new BufferedInputStream(ins)).read(buff))){//长度保存到len,内容放入到 buff
                out.write(buff, 0, len);//将图片数组内容写入到图片文件
//              System.out.println(CatchIMG.class.toString()+":"+len+"byte已经写入到文件中,内容:  "+new String(buff));
            }
            urlConn.disconnect();
            ins.close();
            out.close();
            System.out.println(CatchIMG.class.toString()+":获取图片完成,耗时="+((System.currentTimeMillis()-startTime)/1000)+"s");
        }
    }
    /**
     * @throws IOException  
     * @Title: main 
     * @Description: 测试方法
     * @throws 
     */
    public static void main(String[] args) throws IOException {
        CatchIMG.getImg("https://files.cnblogs.com/files/humi/wc.bmp");//
    }

}

测试中要获取的图片是这个https://files.cnblogs.com/files/humi/wc.bmp
1128666-20171203215447179-585115689.png

最终效果
1128666-20171203215244163-1652551597.png

imgraber

*** 一个自己写的java 爬虫基于jsoup和swing技术

转载于:https://www.cnblogs.com/humi/p/7967535.html

### 回答1: 要使用Java爬取指定网站的指定类型资源,您可以使用Java中的网络编程功能,例如使用Java的`URL`类和`HttpURLConnection`类来访问网站并获取响应数据。您还可以使用第三方库,例如Apache HttpClient或OkHttp,来帮助您更轻松地处理HTTP请求和响应。 具体来说,您可以使用以下步骤来完成爬取指定网站的指定类型资源的功能: 1. 使用Java的`URL`类或第三方库中的相应类来创建一个代表网站URL的对象。 2. 使用`HttpURLConnection`类或第三方库中的相应类来创建一个连接对象,并将其与创建的URL对象关联。 3. 设置连接对象的请求方法(例如“GET”或“POST”),并可能设置其他请求属性(例如请求头)。 4. 调用连接对象的`connect()`方法来建立实际的网络连接。 5. 使用连接对象的`getInputStream()`方法来获取输入流,该流中包含服务器返回的响应数据。 6. 使用Java的输入流读取器(例如`BufferedReader`)读取输入流中的数据。 7. 关闭输入流和连接对象。 以下是一个使用Java的`URL`类 ### 回答2: 要使用Java实现爬取指定网站的指定类型资源,可以按照以下步骤进行: 1. 导入相关的Java网络爬虫库,例如Jsoup或HttpClient等,以便进行网络请求和解析网页内容。 2. 确定指定网站的URL,并使用网络爬虫库发送HTTP请求获取网页内容。可以使用GET或POST方法根据网站要求。 3. 根据指定类型的资源,使用网络爬虫库解析网页内容,提取出目标资源的相关信息。例如,如果需要爬取网站上的图片资源,可以从网页内容中提取出图片URL。 4. 下载指定类型的资源。根据提取到的资源URL,使用Java的文件操作功能,将资源下载到本地计算机。 5. 可能需要处理解析网页时可能遇到的异常情况,例如网络连接失败、网页不存在等。可以使用Java的异常处理机制来处理这些异常情况。 6. 可选的步骤是对下载的资源进行存储、整理或其他后续操作,以便后续使用或展示。 需要注意的是,对于某些网站或资源,可能存在反爬虫的措施,需要进一步了解并解决这些问题。此外,在爬取网站时需要遵守法律法规和网站的使用规则,避免侵犯他人的权益。 ### 回答3: 要使用Java完成爬取指定网站的指定类型资源的功能,可以使用Jsoup这个第三方库来获取网页的内容,并通过对网页进行解析来获取需要的资源。 首先,需要导入Jsoup库。可以在Java项目的构建工具(如Maven或Gradle)的配置文件中添加Jsoup的依赖项,然后重新构建项目。 接下来,可以使用Jsoup的connect方法获取网页内容,并根据需要设置请求头、Cookies等参数。例如,可以使用以下代码获取一个网页的内容: ``` String url = "指定网站的地址"; Connection.Response response = Jsoup.connect(url) .header("User-Agent", "Mozilla/5.0") .timeout(5000) .execute(); Document document = response.parse(); ``` 获取后的网页内容将保存在一个Document对象中,可以使用该对象进行页面解析。 根据指定的类型资源,可以使用Jsoup提供的选择器语法,通过解析网页内容来定位需要的资源元素。例如,如果要获取所有的图片资源,可以使用以下代码: ``` Elements images = document.select("img"); for (Element image : images) { String imageUrl = image.attr("src"); // 进一步处理图片资源的逻辑 } ``` 对于其他类型的资源,可以根据具体的HTML结构和元素特征进行选择和提取。 最后,根据需求进行适当的处理和保存。根据资源的类型,可以将资源下载到本地,或者进行其他进一步的处理。例如,保存一个图片资源可以使用以下代码: ``` URL imageUrl = new URL(imageUrl); InputStream is = imageUrl.openStream(); OutputStream os = new FileOutputStream("保存路径"); byte[] buffer = new byte[1024]; int length; while ((length = is.read(buffer)) != -1) { os.write(buffer, 0, length); } os.close(); is.close(); ``` 以上是用Java完成爬取指定网站的指定类型资源的简单方法,使用Jsoup库进行网页内容解析和资源定位,然后根据资源的类型进行适当的处理和保存。注意,在进行网页爬取时应遵守网站的使用规则和法律法规。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值