Java实现网络爬虫-Java入门

最新推荐文章于 2024-01-02 17:43:44 发布

瘟神不会编程

最新推荐文章于 2024-01-02 17:43:44 发布

阅读量352

点赞数

分类专栏： Java爬虫 Java

本文链接：https://blog.csdn.net/Ronin_He/article/details/103165330

版权

1. 网络爬虫

1.1 名称

网络爬虫（又被称为网页蜘蛛，网络机器人），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。
另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

1.2 简述

网络爬虫是通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。
如果把整个互联网当成一个网站，那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。
所以要想抓取网络上的数据，不仅需要爬虫程序还需要一个可以接受”爬虫“发回的数据并进行处理过滤的服务器，爬虫抓取的数据量越大，对服务器的性能要求则越高。

2. 流程

网络爬虫是做什么的? 他的主要工作就是跟据指定的url地址去发送请求,获得响应, 然后解析响应 , 一方面从响应中查找出想要查找的数据,另一方面从响应中解析出新的URL路径,然后继续访问,继续解析;继续查找需要的数据和继续解析出新的URL路径 .
这就是网络爬虫主要干的工作. 下面是流程图:

通过上面的流程图能大概了解到网络爬虫干了哪些活 ,根据这些也就能设计出一个简单的网络爬虫出来.

3. 实现思路

目标网站：
在这里插入图片描述
一个简单的爬虫必需的功能:

发送请求和获取响应的功能 ;
解析响应的功能 ;
对过滤出的数据进行存储的功能 ;
对解析出来的URL路径处理的功能 ;

4. 实现代码

接下来直接上手代码
这里我使用的是一个简单的maven项目

依赖

<!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
    <dependency>
        <groupId>org.jsoup</groupId>
        <artifactId>jsoup</artifactId>
        <version>1.11.3</version>
    </dependency>

    <!-- 文件下载 -->
    <dependency>
        <groupId>commons-io</groupId>
        <artifactId>commons-io</artifactId>
        <version>2.5</version>
    </dependency>

    <!-- https://mvnrepository.com/artifact/org.apache.httpcomponents/httpclient -->
    <dependency>
        <groupId>org.apache.httpcomponents</groupId>
        <artifactId>httpclient</artifactId>
        <version>4.5.5</version>
    </dependency>

实现获取网页源码的方法

/**
     * @param url      要抓取的网页地址
     * @param encoding 要抓取网页编码
     * @return
     */
    public static String getHtmlResourceByUrl(String url, String encoding) {
   
        URL urlObj = null;
        URLConnection uc = null;
        InputStreamReader isr = null;
        BufferedReader reader = null;
        StringBuffer buffer = new StringBuffer();
        // 建立网络连接
        try {
   
            urlObj = new URL(url);
            // 打开网络连接
            uc = urlObj.openConnection();
            // 建立文件输入流
            isr = new InputStreamReader(uc.getInputStream(), encoding);
            // 建立缓存导入 将网页源代码下载下来
            reader = new BufferedReader(isr);
            // 临时
            String temp = null;
            while ((temp = reader.readLine()) != null) {
   // 一次读一行 只要不为空就说明没读完继续读
                // System.out.println(temp+"\n");
                buffer.append(temp + "\n");
            }
        } catch (Exception e) {
   
            e.printStackTrace();
        } finally {
   
            // 关流
            if (isr != null) {
   
                try {
   
                    isr.close();
                } catch (IOException e) {
   
                    e.printStackTrace();
                }
            }
        }
        return buffer.toString();
    }

保存页面的方法

public static void getJobInfo(String url, String encoding) {
   
        // 拿到网页源代码
        String html = getHtmlResourceByUrl(url, encoding);
        try {
   
            File fp = new File("D:/cskt/cskt.html");
            OutputStream os = new FileOutputStream(fp);          //建立文件输出流
            os.write(html.getBytes());
            os.close();
        } catch (MalformedURLException e) {
   
            e.printStackTrace();
        } catch (IOException e) {
   
            e.printStackTrace();
        }
    }

得到网页中图片地址的方法

/**
     * 得到网页中图片的地址
     *
     * @param htmlStr html字符串
     * @return List<String>
     */
    private static List<String> getImgStr(String htmlStr) {
   
        List<String> pics = new ArrayList<String>();
        String img = ""

最低0.47元/天解锁文章

瘟神不会编程

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Java实现网络爬虫-Java入门

1. 网络爬虫1.1 名称网络爬虫（又被称为网页蜘蛛，网络机器人），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。1.2 简述网络爬虫是通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网...
复制链接

扫一扫