Jsoup解析文件

Jsoup解析文件

JSoup库是什么

Jsoup是一个开源的Java库,它可以用于处理实际应用中的HTML。它提供了非常便利的API来进行数据的提取及修改,充分利用了DOM,CSS以及jquery风格方法的长处。Jsoup实现了WAHTWG HTML5的规范,它从HTML解析出来的DOM和Chrome以及Firefox这样的现代浏览器解析出来的完全一致。下面是Jsoup库的一些有用的特性:

  • Jsoup可以从URL,文件,或者字符串中获取并解析HTML。
  • Jsoup可以查找并提取数据,可以使用DOM遍历或者CSS选择器。
  • 你可以使用Jsoup来修改HTML元素,属性以及文本。
  • Jsoup通过一个安全的白名单确保了用户提交的内容是干净的,以防止XSS攻击。
  • Jsoup还能输出整洁的HTML。

Jsoup下载网址

使用前需要将jsoup的jar包build path到项目中。jsoup可以从包括字符串、URL地址、以及本地文件来加载HTML文档,并生成Document对象实例。三种解析方式如下:
1. 解析HTML格式的字符串

  • Document doc = Jsoup.parse(“html格式的字符串”);

    1. 解析URL指向的页面
  • Document doc = Jsoup.connect(url).get();

    1. 解析本地HTML文档
  • File input = new File(“D:/test.html”);
    Document doc = Jsoup.parse(input,”UTF-8”,”http://www.csdn.net/“);

login.html

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> 
    <html> 
    <head> 
    <meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1"> 
    <title>Login Page</title> 
    </head> 
    <body> 
    <div id="login" class="simple" > 
    <form action="login.do"> 
    Username : <input id="username" type="text" /><br> 
    Password : <input id="password" type="password" /><br> 
    <input id="submit" type="submit" /> 
    <input id="reset" type="reset" /> 
    </form> 
    </div> 
    </body> 
    </html>

利兹

public class HTMLParser {

    public static void main(String args[]){
        /**
         * 直接解析了一个内容为HTML的字符串
         * */
        String HTMLSTring = "<!DOCTYPE html>"
                + "<html>"
                + "<head>"
                + "<title>JSoup Example</title>"
                + "</head>"
                + "<body>"
                + "<table><tr><td><h1>Hello world</h1></tr>"
                + "</table>"
                + "</body>"
                + "</html>";

        Document html = Jsoup.parse(HTMLSTring);
        String title = html.title();
        String h1 = html.body().getElementsByTag("h1").text();
        System.out.println("Input HTML String to Jsoup:" + HTMLSTring);
        System.out.println("Title :" + title);
        System.out.println("Heading :" + h1);

        /**
         * 解析了一个从URL中下载的HTML文件,第三个中我们从本地文件系统中加载了一个HTML文档并进行解析
         * */
        Document htmlFile = null;
        try {
            htmlFile = Jsoup.parse(new File("login.html"), "ISO-8859-1");
        } catch (Exception e) {
            e.printStackTrace();
        }
        title = htmlFile.title();
        Element div =htmlFile.getElementById("login");
        String cssClass = div.className();

        System.out.println("Jsoup can also parse HTML file directly");
        System.out.println("title : " + title);
        System.out.println("class of div tag : " + cssClass);
        /**
         * 解析了一个从URL中下载的HTML文件
         * */
        Document doc;
        try {
            doc = Jsoup.connect("http://www.csdn.net/").get();
            title = doc.title();
        } catch (Exception e) {
            e.printStackTrace();    
            }
        System.out.println("Jsoup Can read HTML page from URL, title : " + title);              
    }
}

使用DOM方法来遍历一个文档

将HTML解析成一个Document之后,就可以使用类似于DOM的方法进行操作。示例代码:

File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
for (Element link : links) {
  String linkHref = link.attr("href");
  String linkText = link.text();
}

说明
Elements这个对象提供了一系列类似于DOM的方法来查找元素,抽取并处理其中的数据。具体如下:

查找元素
- getElementById(String id)
- getElementsByTag(String tag)
- getElementsByClass(String className)
- getElementsByAttribute(String key) (and related methods)
- Element siblings: siblingElements(), firstElementSibling(), lastElementSibling(); nextElementSibling(), previousElementSibling()
- Graph: parent(), children(), child(int index)
元素数据
- attr(String key)获取属性attr(String key, String value)设置属性
- attributes()获取所有属性
id(), className() and classNames()
- text()获取文本内容text(String value) 设置文本内容
- html()获取元素内HTMLhtml(String value)设置元素内的HTML内容
- outerHtml()获取元素外HTML内容
- data()获取数据内容(例如:script和style标签)
- tag() and tagName()
操作HTML和文本
- append(String html), prepend(String html)
- appendText(String text), prependText(String text)
- appendElement(String tagName), prependElement(String tagName)
- html(String value)

Demo

解析果壳网的网站

public class JsoupDemo {

    public static void main(String[] args) {

        String url = "http://www.guokr.com/scientific/channel/visual/";

        try {
            Document doc = Jsoup.connect(url).get();
            Element masthead = doc.select("div.article-list").first();
            Elements titleElements = masthead.select("div.article h3 a");   
            Elements dateElements = masthead.select("div.article div.article-info");
            Elements imgElements = masthead.select("div.article a img");
            Elements disElements = masthead.select("div.article p");
            int count = titleElements.size();
            for (int i = 0; i < count; i++) {
                Element titleElement = titleElements.get(i);
                Element dateElement = dateElements.get(i);
                Element imgElement = imgElements.get(i);
                Element disElement = disElements.get(i);

                int location = dateElement.text().indexOf("|");
                System.out.println("title :" + titleElement.text());
                System.out.println("date :" + dateElement.text().substring(location + 1,dateElement.text().length() - 9));
                System.out.println("img :" + imgElement.attr("src"));
                System.out.println("summary :" + disElement.text());
            }

        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }

    }

}

title :【科学美图】夜空之美 PK 对抗光害·2016年获奖作品
date :2016-06-14
img :http://3.im.guokr.com/tIjJ8_Vv9HVTFKsVMv3PXzagyyB3XbAfQNTkXOq1KoxKAQAAugAAAEpQ.jpg
summary :一年一度的“地球与天空”国际摄影大赛近日公布结果,获奖的10幅绝美天文风光作品中,有3幅出自中国摄影师之手,快来欣赏!

https://github.com/lxxself/getGank
http://www.jianshu.com/p/4fc8e18cc0e2

Elements这个对象提供了一系列类似于DOM的方法来查找元素,抽取并处理其中的数据。具体如下:

http://www.jcodecraeer.com/a/anzhuokaifa/androidkaifa/2014/1226/2218.html
查找元素,select用法
Jsoup官方文档
使用JSoup解析HTML文件
解析和遍历一个HTML文档
Android网络爬虫程序(基于Jsoup)
抓取csdn上的各类别的文章 (制作csdn app 二)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值