Jsoup解析文件

最新推荐文章于 2024-05-03 17:19:41 发布

丶笑看退场

最新推荐文章于 2024-05-03 17:19:41 发布

阅读量826

点赞数

分类专栏： java 文章标签： jsoup-java

本文链接：https://blog.csdn.net/Lebron_xia/article/details/51707528

版权

java 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Jsoup解析文件

Jsoup解析文件

JSoup库是什么

Jsoup是一个开源的Java库，它可以用于处理实际应用中的HTML。它提供了非常便利的API来进行数据的提取及修改，充分利用了DOM，CSS以及jquery风格方法的长处。Jsoup实现了WAHTWG HTML5的规范，它从HTML解析出来的DOM和Chrome以及Firefox这样的现代浏览器解析出来的完全一致。下面是Jsoup库的一些有用的特性：

Jsoup可以从URL，文件，或者字符串中获取并解析HTML。
Jsoup可以查找并提取数据，可以使用DOM遍历或者CSS选择器。
你可以使用Jsoup来修改HTML元素，属性以及文本。
Jsoup通过一个安全的白名单确保了用户提交的内容是干净的，以防止XSS攻击。
Jsoup还能输出整洁的HTML。

Jsoup下载网址

使用前需要将jsoup的jar包build path到项目中。jsoup可以从包括字符串、URL地址、以及本地文件来加载HTML文档，并生成Document对象实例。三种解析方式如下：
1. 解析HTML格式的字符串

Document doc = Jsoup.parse(“html格式的字符串”);
1. 解析URL指向的页面
Document doc = Jsoup.connect(url).get();
1. 解析本地HTML文档
File input = new File(“D:/test.html”);
Document doc = Jsoup.parse(input,”UTF-8”,”http://www.csdn.net/“);

login.html

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> 
    <html> 
    <head> 
    <meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1"> 
    <title>Login Page</title> 
    </head> 
    <body> 
    <div id="login" class="simple" > 
    <form action="login.do"> 
    Username : <input id="username" type="text" /><br> 
    Password : <input id="password" type="password" /><br> 
    <input id="submit" type="submit" /> 
    <input id="reset" type="reset" /> 
    </form> 
    </div> 
    </body> 
    </html>

利兹

public class HTMLParser {

    public static void main(String args[]){
        /**
         * 直接解析了一个内容为HTML的字符串
         * */
        String HTMLSTring = "<!DOCTYPE html>"
                + "<html>"
                + "<head>"
                + "<title>JSoup Example</title>"
                + "</head>"
                + "<body>"
                + "<table><tr><td><h1>Hello world</h1></tr>"
                + "</table>"
                + "</body>"
                + "</html>";

        Document html = Jsoup.parse(HTMLSTring);
        String title = html.title();
        String h1 = html.body().getElementsByTag("h1").text();
        System.out.println("Input HTML String to Jsoup:" + HTMLSTring);
        System.out.println("Title :" + title);
        System.out.println("Heading :" + h1);

        /**
         * 解析了一个从URL中下载的HTML文件，第三个中我们从本地文件系统中加载了一个HTML文档并进行解析
         * */
        Document htmlFile = null;
        try {
            htmlFile = Jsoup.parse(new File("login.html"), "ISO-8859-1");
        } catch (Exception e) {
            e.printStackTrace();
        }
        title = htmlFile.title();
        Element div =htmlFile.getElementById("login");
        String cssClass = div.className();

        System.out.println("Jsoup can also parse HTML file directly");
        System.out.println("title : " + title);
        System.out.println("class of div tag : " + cssClass);
        /**
         * 解析了一个从URL中下载的HTML文件
         * */
        Document doc;
        try {
            doc = Jsoup.connect("http://www.csdn.net/").get();
            title = doc.title();
        } catch (Exception e) {
            e.printStackTrace();    
            }
        System.out.println("Jsoup Can read HTML page from URL, title : " + title);              
    }
}

使用DOM方法来遍历一个文档

将HTML解析成一个Document之后，就可以使用类似于DOM的方法进行操作。示例代码：

File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
for (Element link : links) {
  String linkHref = link.attr("href");
  String linkText = link.text();
}

说明
Elements这个对象提供了一系列类似于DOM的方法来查找元素，抽取并处理其中的数据。具体如下：

查找元素
- getElementById(String id)
- getElementsByTag(String tag)
- getElementsByClass(String className)
- getElementsByAttribute(String key) (and related methods)
- Element siblings: siblingElements(), firstElementSibling(), lastElementSibling(); nextElementSibling(), previousElementSibling()
- Graph: parent(), children(), child(int index)
元素数据
- attr(String key)获取属性attr(String key, String value)设置属性
- attributes()获取所有属性
id(), className() and classNames()
- text()获取文本内容text(String value) 设置文本内容
- html()获取元素内HTMLhtml(String value)设置元素内的HTML内容
- outerHtml()获取元素外HTML内容
- data()获取数据内容（例如：script和style标签)
- tag() and tagName()
操作HTML和文本
- append(String html), prepend(String html)
- appendText(String text), prependText(String text)
- appendElement(String tagName), prependElement(String tagName)
- html(String value)

Demo

解析果壳网的网站

public class JsoupDemo {

    public static void main(String[] args) {

        String url = "http://www.guokr.com/scientific/channel/visual/";

        try {
            Document doc = Jsoup.connect(url).get();
            Element masthead = doc.select("div.article-list").first();
            Elements titleElements = masthead.select("div.article h3 a");   
            Elements dateElements = masthead.select("div.article div.article-info");
            Elements imgElements = masthead.select("div.article a img");
            Elements disElements = masthead.select("div.article p");
            int count = titleElements.size();
            for (int i = 0; i < count; i++) {
                Element titleElement = titleElements.get(i);
                Element dateElement = dateElements.get(i);
                Element imgElement = imgElements.get(i);
                Element disElement = disElements.get(i);

                int location = dateElement.text().indexOf("|");
                System.out.println("title :" + titleElement.text());
                System.out.println("date :" + dateElement.text().substring(location + 1,dateElement.text().length() - 9));
                System.out.println("img :" + imgElement.attr("src"));
                System.out.println("summary :" + disElement.text());
            }

        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }

    }

}

title :【科学美图】夜空之美 PK 对抗光害·2016年获奖作品
date :2016-06-14
img :http://3.im.guokr.com/tIjJ8_Vv9HVTFKsVMv3PXzagyyB3XbAfQNTkXOq1KoxKAQAAugAAAEpQ.jpg
summary :一年一度的“地球与天空”国际摄影大赛近日公布结果，获奖的10幅绝美天文风光作品中，有3幅出自中国摄影师之手，快来欣赏！

https://github.com/lxxself/getGank
http://www.jianshu.com/p/4fc8e18cc0e2

Elements这个对象提供了一系列类似于DOM的方法来查找元素，抽取并处理其中的数据。具体如下：

http://www.jcodecraeer.com/a/anzhuokaifa/androidkaifa/2014/1226/2218.html
查找元素，select用法
 Jsoup官方文档
 使用JSoup解析HTML文件
 解析和遍历一个HTML文档
 Android网络爬虫程序（基于Jsoup）
抓取csdn上的各类别的文章（制作csdn app 二）

丶笑看退场

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Jsoup解析文件

Jsoup解析文件JSoup库是什么使用DOM方法来遍历一个文档DemoJsoup解析文件JSoup库是什么Jsoup是一个开源的Java库，它可以用于处理实际应用中的HTML。它提供了非常便利的API来进行数据的提取及修改，充分利用了DOM，CSS以及jquery风格方法的长处。Jsoup实现了WAHTWG HTML5的规范，它从HTML解析出来的DOM和Chrome以及Firefox这样
复制链接

扫一扫

专栏目录