html解析之Jsoup小探-实例分析

Jsoup作为html新兴之星,用起来也是非常方便的

package com.dzy.jsoup;

import java.io.IOException;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;


public class TestJsoup {
        public static void main(String[] args) {
                //TestJsoup.first();
                TestJsoup.extractingdata();
        }


        public static void first()
        {
            String html="<html><head><title>First parse</title></head>"
  + "<body><p>Parsed HTML into a doc.</p></body></html>";
            Document doc=Jsoup.parse(html);
            System.out.println(doc.text());   //获取纯文本
            System.out.println(doc.outerHtml());   //获取html
            System.out.println("----------------------------------------");
            doc=Jsoup.parseBodyFragment(html);   //把html像body一样对待
            Element body=doc.body();                       //取得body部分
            System.out.println(body.outerHtml());
            System.out.println("---------------------------------------------");
            try {
                doc = Jsoup.connect("http://www.jsu.edu.cn").get();
                //还可以设置.data   .userAgent  .cookie    .timeout等属性, post方式
            } catch (IOException e) {
                // TODO Auto-generated catch block
                e.printStackTrace();
            }
            System.out.println(doc.title());   //url方式获取标题
            System.out.println("---------------------------------------------");
            //File input =new File("/file/index.html"); //项目里面的html
            //doc=Jsoup.parse(input,"UTF-8","http://localhost/index.html");//本地的文件

        }


        private static void extractingdata() {
            Document doc=null;
            try {
                doc=Jsoup.connect("http://www.jsu.edu.cn").get();
            } catch (IOException e) {
                // TODO Auto-generated catch block
                e.printStackTrace();
            }
            Element content=doc.getElementById("126097369401686481"); //某一个div的id罢了
            Elements links=content.getElementsByTag("a");
            for (Element link : links) {
                String linkhref=link.attr("href");
                String linkText=link.text();
                System.out.println(linkhref+linkText);
            }
            System.out.println("------------------解压特定地方----------------------");
            String html = "<p>An <a href='http://example.com/'><b>example</b></a> link.</p>";
            doc = Jsoup.parse(html);
            Element link = doc.select("a").first();

            String text = doc.body().text(); // "An example link"
            String linkHref = link.attr("href"); // "http://example.com/"
            String linkText = link.text(); // "example""

            String linkOuterH = link.outerHtml(); 
                // "<a href="http://example.com"><b>example</b></a>"
            String linkInnerH = link.html(); // "<b>example</b>"
            System.out.println("------------------解压特定地方----------------------");


        }
}

官方example地址:example

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值