Java实现简单爬虫

最新推荐文章于 2024-07-04 16:04:39 发布

每日小新

最新推荐文章于 2024-07-04 16:04:39 发布

阅读量404

点赞数 3

分类专栏：日常一学 Java复习

本文链接：https://blog.csdn.net/llAl_lAll/article/details/122290646

版权

Java Jsoup 网页爬虫图片下载 HTML解析

关键词由CSDN通过智能技术生成

Java复习同时被 2 个专栏收录

31 篇文章 1 订阅

订阅专栏

日常一学

24 篇文章 5 订阅

订阅专栏

Java实现简单爬虫😋

超级简单的爬虫，直接引入jsoup依赖，即可编写获取指定网页的信息，很简单的一个爬虫。（一个小案例）

//一个小案例仅供参考
public class Reptile {
    public static void main(String[] args) throws IOException {
        //指定爬取的网页
        String url="https://pic.netbian.com/4kdongman/";
        //通过Jsoup后去指定路径的页面信息
        Document document= Jsoup.parse(new URL(url),10000);
        //获取id=main的标签
        Element content=document.getElementById("main");
        //获取img标签
        Elements imgs=content.getElementsByTag("img");
        System.out.println(imgs);
        //存放图片的文件名
        int id=0;
        //视情况而定，有的获取的img图片url不需要
        String urlHead="https://pic.netbian.com/";
        //通过遍历获取img的url
        for(Element img:imgs){
            String src=urlHead+img.attr("src");
            URL target=new URL(src);
            URLConnection urlConnection=target.openConnection();
            //获取输入流
            InputStream inputStream=urlConnection.getInputStream();
            id++;
            //输出流到指定文件位置
            OutputStream outputStream=new FileOutputStream("D:\\Java\\JavaProject\\Easy_reptile\\src\\main\\static\\"+id+".jpg");
            //写入写出
            int temp=0;
            while((temp=inputStream.read())!=-1){
                outputStream.write(temp);
            }
            System.out.println(id+".jpg下载完成！");
            //关闭流
            outputStream.close();
            inputStream.close();
        }
    }
}