利用Jsoup进行简单的HTML解析

之前我们已经使用过htmlparser进行简单的html析取,但是现在我们已经不再使用 htmlparser 了,原因是 htmlparser 很少更新,但最重要的是有了 jsoup 。
jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。
jsoup 的主要功能如下:
1. 从一个 URL,文件或字符串中解析 HTML;
2. 使用 DOM 或 CSS 选择器来查找、取出数据;
3. 可操作 HTML 元素、属性、文本;
具体的操作可以查看jsoup中文开发指南http://www.open-open.com/jsoup/

使用之前我们要先引用一下jar包,用之前介绍过的mevan方法就可以了。这里就不多累赘,我们来找一个电影网页(比如电影天堂http://www.dytt8.net/index1.htm)来抓取其中的电影下载地址,点击更多按钮,查看2016新片的更多内容。发现里面还有157页的电影。
这里写图片描述

  1. 第一步,我们要先获取每一分页的地址,查看网页源代码,找到能唯一标识这157页地址的代码。我们找到一个含有属性值为“sldd”的“name”属性标签,其下有157个“option”标签,这就是这157个分页的地址。
    这里写图片描述
    代码实现如下:
public static List<String> getFenye(){

        List<String> pageList = new ArrayList<>();      //用一个动态数组储存得到的分页地址
        Document document;
        try
        {
            document = Jsoup.connect("http://www.ygdy8.net/html/gndy/dyzz/index.html").get();
            //找到第一个(get(0))含有属性名为 name ,属性值为 sldd 的元素,然后再找到这个元素中含有的所有option元素(即所有的分页地址)
            Elements elements = document.getElementsByAttributeValue("name", "sldd").get(0).getElementsByTag("option");
            //测试得到的所有分页
            //System.out.println(elements.size());
            for (int i = 0; i < elements.size(); i++)
            {

                 Element element = elements.get(i);
                 //得到所有的分页地址存到数组中(将获取到的数据进行拼接得到完整的地址)
                 pageList.add("http://www.ygdy8.net/html/gndy/dyzz/"+element.attr("value"));

                // System.out.println("http://www.ygdy8.net/html/gndy/dyzz/"+element.attr("value"));
            }
            //System.out.println(pageList);
        } catch (IOException e)
        {

            e.printStackTrace();
        }
        return pageList;
    }

测试一下得到的数据,System.out.println(“http://www.ygdy8.net/html/gndy/dyzz/“+element.attr(“value”));
这里写图片描述

  1. 第二步,得到分页地址后,我们就要从每一分地址中获取每一部电影的网页地址,查看一下网页源代码,同样找到能够唯一标识他们的属性,找到一个属性值为“ulink”的“class”属性。(每一分也大概有25部的电影)
    这里写图片描述这里写图片描述
    代码实现如下:
/*
     * 功能:用来读取 http://www.ygdy8.net/html/gndy/dyzz/index.html
     * 用来读取每一分页中的具体电影地址
     */
    public static List<String> getIntro(String pageUrl){
        //同样将同一分页中的电影地址存到一个动态数组中
        List<String> allMOveUrl = new ArrayList<String>();
        Document document;
        try
        {
            document = Jsoup.connect(pageUrl).get();
            //得到所有的属性值为ulink的class属性
            Elements elements = document.getElementsByClass("ulink");
            //测试得到的数量
            //System.out.println(elements.size());
            for (int i = 0; i < elements.size(); i++)
            {
                Element element = elements.get(i);
                //System.out.println("http://www.ygdy8.net" + element.attr("href"));
                //将电影地址添加到动态数组中(要将获取到得数据进行拼接成完整的地址)
                allMOveUrl.add("http://www.ygdy8.net" + element.attr("href"));

            }
            //System.out.println(allMOveUrl);
        } catch (IOException e)
        {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
        return allMOveUrl;
    }
  1. 第三步,得到具体的电影地址后,就要从网页中获取电影的下载地址,找到能唯一标识他的属性。
    这里写图片描述
/*
     * 功能:用来读取http://www.ygdy8.net/html/gndy/dyzz/20170129/53080.html
     * 获取电影网址中的下载地址
     */
    public static void getDownloadUrl(String indroUrl){
        try
        {
            Document document = Jsoup.connect(indroUrl).get();
            //获取href属性中属性值中含有ftp的属性
            Elements elements = document.getElementsByAttributeValueMatching("href", "ftp");
            //System.out.println(elements.get(0).attr("href"));
            for (int i = 0; i < elements.size(); i++)
            {
                Element element = elements.get(i);
                System.out.println(element.attr("href"));
            }


        } catch (IOException e)
        {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
    }

至此,三个方法已经都实现了,我们要把三个方法都连系起来,需要写两个循环;

    public static void test2(){
        List a = getFenye();
        for (Iterator iterator = a.iterator(); iterator.hasNext();)
        {
            String a1 = (String) iterator.next();
            List bList = getIntro(a1);
            for (Iterator iterator2 = bList.iterator(); iterator2.hasNext();)
            {
                String b1 = (String) iterator2.next();
                getDownloadUrl(b1);

            }

        }
    }

最后,运行整个成个程序,得到网站中电影下载地址,这时候就可以批量复制到你的下载器中下载了
这里写图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值