Jsoup用法

ps:	虽然使用jsoup可以代替HttpClient 直接发起请求解析数据,但往往不会这样用,因为实际的开发过程中,需要使用到多线程,连接池,代理等等方式,而jsoup 对这些的支持并不是很好,所以我们一直把jsoup仅仅作为Html解析工具。
================================================================================================11.1 我们抓取到页面之后,还需要对页面进行解析。可以是用字符串处理工具解析页面,也可以使用正则表达式,但这些方法都会带来很大的成本,。 
 (2) Jsoup
        2.1 jsoup 是一款 java 的 HTML 的解析器,可直接解析某个URL的地址,HTML 文本内容 ,它提供了一个非常省力的API,可通过 DOM,CSS 以及类似于JQuery 的操作方法来取出和操作数据。
        jsoup的主要功能
           1.从一个url,文件或者字符串中解析 HTML
           2.使用DOS或者CSS选择器来查找,取出数据;
           3.可操作HTML元素,属性,文本。 
        
        2.2 使用 IDEA 工具需要坐标(jar) 
        Jsoup 1.10.2 , junit , commons-io , commons-lang3.
    
    public void test1() throws  Exception{
        //解析url地址,第一个参数访问的url,第二个参数是访问时候的超时时间。
          Document doc = Jsoup.parse(new URL("http://www.itheima.com"),1000);
           String title =  doc.getElementsByTag("title").first().text();

         System.out.println(title);
    }3)可以使用Selector选择器,获取数据。
      Document doc = Jsoup.parse(new URL("http://www.itheima.com"),1000);
      Element span =  doc.select("span").first();
      System.out.println(span);
#id , .class通过class名称查找元素。 [attribute] :利用属性查找元素。 [attr=value] 利用属性值来查找元素。

 Document doc = Jsoup.parse(new URL("https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&enc=utf-8&wq=%E6%89%8B%E6%9C%BA&pvid=bfd3f7e00bd840bd9b15f334678118c9"), 1000);
        根据id查询元素
        // Element element = doc.getElementById("J_scroll_loading");
        根据标签查询元素
        //Elements element1 = doc.getElementsByTag("span");

        根据class获取属性
        // Element element1 = doc.getElementsByClass("fg-line-value").first();
        根据属性获取元素
        Element element1 = doc.getElementsByAttribute("searchlog(1,0,0,62,'华为')").first();
        System.out.println(element1);

Document doc = Jsoup.parse(new URL("https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&enc=utf-8&wq=%E6%89%8B%E6%9C%BA&pvid=bfd3f7e00bd840bd9b15f334678118c9"), 1000);
        Element e = doc.getElementById("J_goodsList");
        String str = "";
        从元素中获取id
        str = e.id();
        从元素中获取className
        // str = e.className();
        从元素中的属性attr
        // str = e.attr("id");
        从元素中获取所有属性attributes。
       // Attributes strd = e.attributes();
        从元素中获取文本内容
        str = e.text();
        System.out.println(str);

3.选择器selector
 Document doc = Jsoup.parse(new URL("https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&enc=utf-8&wq=%E6%89%8B%E6%9C%BA&pvid=bfd3f7e00bd840bd9b15f334678118c9"), 1000);
        //tagname:通过标签查找元素,比如:span
//        Elements elements = doc.select("span");
//        for (Element e : elements) {
//            System.out.println(e);
//        }
        //通过id查找元素,例如:#city_jd
        // Elements e = doc.select("#J_goodsList");
        //通过class名称查询元素 例如:.class_a
        // Element e = doc.select(".gl-item").first();
        //利用属性查找元素,例如[gl-item]
        //  Elements e = doc.select("[src]");
        //利用属性和属性的值查找元素
        Elements e = doc.select("[class=gl-item]");
        System.out.println(e);

6. Document doc = Jsoup.parse(new URL("https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&enc=utf-8&wq=%E6%89%8B%E6%9C%BA&pvid=bfd3f7e00bd840bd9b15f334678118c9"), 1000);

         el#id:元素+id
        Elements e = doc.select("li#J_goodsList");
        el.class : 元素+class 例如:li.class_q
        Elements e = doc.select("li.gl-item");
        el[attr] 元素+ 属性名 比如: span [abc]

        任意组合: 比如 span[abc].s_name
        ancestor child: 查找某元素下子元素,比如: .city_con li ,查找"city_con"下的所有li
        parent > child : 查找某父类元素下的直接子元素,比如
        .city_con > ul > li 查找city_con第一级(直接子元素)的ul,再找所有ul下的第一级li
        parent >* : 查找某个父类元素下所有直接子元素


  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值