利用Jsoup进行简单的HTML解析

最新推荐文章于 2021-02-16 10:02:28 发布

a_shuaiFu

最新推荐文章于 2021-02-16 10:02:28 发布

阅读量633

点赞数

分类专栏： java

本文链接：https://blog.csdn.net/f_junhao/article/details/54996655

版权

java 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

之前我们已经使用过htmlparser进行简单的html析取，但是现在我们已经不再使用 htmlparser 了，原因是 htmlparser 很少更新，但最重要的是有了 jsoup 。
jsoup 是一款 Java 的 HTML 解析器，可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API，可通过 DOM，CSS 以及类似于 jQuery 的操作方法来取出和操作数据。
jsoup 的主要功能如下：
1. 从一个 URL，文件或字符串中解析 HTML；
2. 使用 DOM 或 CSS 选择器来查找、取出数据；
3. 可操作 HTML 元素、属性、文本；
具体的操作可以查看jsoup中文开发指南http://www.open-open.com/jsoup/

使用之前我们要先引用一下jar包，用之前介绍过的mevan方法就可以了。这里就不多累赘，我们来找一个电影网页（比如电影天堂http://www.dytt8.net/index1.htm）来抓取其中的电影下载地址，点击更多按钮，查看2016新片的更多内容。发现里面还有157页的电影。
这里写图片描述

第一步，我们要先获取每一分页的地址，查看网页源代码，找到能唯一标识这157页地址的代码。我们找到一个含有属性值为“sldd”的“name”属性标签，其下有157个“option”标签，这就是这157个分页的地址。

代码实现如下：

public static List<String> getFenye(){

        List<String> pageList = new ArrayList<>();      //用一个动态数组储存得到的分页地址
        Document document;
        try
        {
            document = Jsoup.connect("http://www.ygdy8.net/html/gndy/dyzz/index.html").get();
            //找到第一个（get（0））含有属性名为 name ，属性值为 sldd 的元素，然后再找到这个元素中含有的所有option元素(即所有的分页地址)
            Elements elements = document.getElementsByAttributeValue("name", "sldd").get(0).getElementsByTag("option");
            //测试得到的所有分页
            //System.out.println(elements.size());
            for (int i = 0; i < elements.size(); i++)
            {

                 Element element = elements.get(i);
                 //得到所有的分页地址存到数组中（将获取到的数据进行拼接得到完整的地址）
                 pageList.add("http://www.ygdy8.net/html/gndy/dyzz/"+element.attr("value"));

                // System.out.println("http://www.ygdy8.net/html/gndy/dyzz/"+element.attr("value"));
            }
            //System.out.println(pageList);
        } catch (IOException e)
        {

            e.printStackTrace();
        }
        return pageList;
    }

测试一下得到的数据，System.out.println(“http://www.ygdy8.net/html/gndy/dyzz/“+element.attr(“value”));
这里写图片描述

第二步，得到分页地址后，我们就要从每一分地址中获取每一部电影的网页地址，查看一下网页源代码，同样找到能够唯一标识他们的属性，找到一个属性值为“ulink”的“class”属性。（每一分也大概有25部的电影）

代码实现如下：

/*
     * 功能：用来读取 http://www.ygdy8.net/html/gndy/dyzz/index.html
     * 用来读取每一分页中的具体电影地址
     */
    public static List<String> getIntro(String pageUrl){
        //同样将同一分页中的电影地址存到一个动态数组中
        List<String> allMOveUrl = new ArrayList<String>();
        Document document;
        try
        {
            document = Jsoup.connect(pageUrl).get();
            //得到所有的属性值为ulink的class属性
            Elements elements = document.getElementsByClass("ulink");
            //测试得到的数量
            //System.out.println(elements.size());
            for (int i = 0; i < elements.size(); i++)
            {
                Element element = elements.get(i);
                //System.out.println("http://www.ygdy8.net" + element.attr("href"));
                //将电影地址添加到动态数组中（要将获取到得数据进行拼接成完整的地址）
                allMOveUrl.add("http://www.ygdy8.net" + element.attr("href"));

            }
            //System.out.println(allMOveUrl);
        } catch (IOException e)
        {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
        return allMOveUrl;
    }

第三步，得到具体的电影地址后，就要从网页中获取电影的下载地址，找到能唯一标识他的属性。

/*
     * 功能：用来读取http://www.ygdy8.net/html/gndy/dyzz/20170129/53080.html
     * 获取电影网址中的下载地址
     */
    public static void getDownloadUrl(String indroUrl){
        try
        {
            Document document = Jsoup.connect(indroUrl).get();
            //获取href属性中属性值中含有ftp的属性
            Elements elements = document.getElementsByAttributeValueMatching("href", "ftp");
            //System.out.println(elements.get(0).attr("href"));
            for (int i = 0; i < elements.size(); i++)
            {
                Element element = elements.get(i);
                System.out.println(element.attr("href"));
            }


        } catch (IOException e)
        {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
    }

至此，三个方法已经都实现了，我们要把三个方法都连系起来，需要写两个循环；

    public static void test2(){
        List a = getFenye();
        for (Iterator iterator = a.iterator(); iterator.hasNext();)
        {
            String a1 = (String) iterator.next();
            List bList = getIntro(a1);
            for (Iterator iterator2 = bList.iterator(); iterator2.hasNext();)
            {
                String b1 = (String) iterator2.next();
                getDownloadUrl(b1);

            }

        }
    }

最后，运行整个成个程序，得到网站中电影下载地址，这时候就可以批量复制到你的下载器中下载了
这里写图片描述

a_shuaiFu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
利用Jsoup进行简单的HTML解析

之前我们已经使用过htmlparser进行简单的html析取，但是现在我们已经不再使用 htmlparser 了，原因是 htmlparser 很少更新，但最重要的是有了 jsoup 。 jsoup 是一款 Java 的 HTML 解析器，可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API，可通过 DOM，CSS 以及类似于 jQuery 的操作方法来取出和操作数据。
复制链接

扫一扫

专栏目录