利用Jsoup获取HTML页面的标签信息

最新推荐文章于 2024-07-13 03:20:30 发布

FOX_HYJ

最新推荐文章于 2024-07-13 03:20:30 发布

阅读量9.1k

点赞数 7

分类专栏： java 文章标签： html 标签网络 jsoup-爬虫

本文链接：https://blog.csdn.net/qq_36059642/article/details/60159637

版权

java 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

由于Jsoup是一个外部的jar包，所以我们需要从网上下载jar包并且导入到工程里面。
下载Jsoup包
然后添加到工程中，具体不再阐述。

函数解析：

Document doc = Jsoup.connect(“http://www.ithome.com/“) .timeout(60000).get();

参数一:网站域名

.timeout设置网络超时时间

.get()获取网页HTML的内容

代码返回一个Document对象，这个对象包含了我们所熟悉的HTML代码

doc.html();

当我们使用时候这条代码的时候就会取得网页的html的代码！

使用Println()打印doc.html()如下：

这样我们就获得了网页代码了！
接下来我们要取出其中的数据，如何去获取呢？
很简单!!

document.getElementById(id);//通过ID获取元素，返回Element
document.getElementsByClass(className);//通过类名获取元素,返回Elements
document.getElementsByTag(tagName);//通过标签获取元素,返回Elements

            //以上代码需要注意返回的类型，是Elements还是Element
            //注意导入的包名字是否正确！

实例：

import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;

public class Test {
public static void main(String[] args) {
    try {
        Document document =Jsoup.connect("http://wap.ithome.com").get();
        Elements tagElement = document.getElementsByTag("title");
        //取出所有标签为‘<title>*****<title>’的元素
        //打印的结果为“<title>IT之家-手机版<title>”
        System.out.println(tagElement.text());
        //获取元素的文本
        //打印的结果为“IT之家-手机版”
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}