Jsoup加载HTML的三种方式


转载:http://www.javacui.com/opensource/464.html

Jsoup加载HTML的三种方式,上一篇说的只是一种方式,直接从HTTP源网站获取。


从字符串解析

来自用户输入,一个文件或一个网站的HTML字符串,你可能需要对它进行解析并取其内容,或校验其格式是否完整,或想修改它。

?
1
2
3
String html =  "<html><head><title>First parse</title></head>"
   "<body><p>from www.javacui.com</p></body></html>" ;
Document doc = Jsoup.parse(html);

只要解析的不是空字符串,就能返回一个结构合理的文档,其中包含(至少) 一个head和一个body元素。

一旦拥有了一个Document,你就可以使用Document中适当的方法或它父类 Element和Node中的方法来取得相关数据。

实用示例:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
package  com.cui.test;
import  org.jsoup.Jsoup;
import  org.jsoup.nodes.Document;
import  org.jsoup.nodes.Element;
import  org.jsoup.select.Elements;
/**
  * 从字符串解析HTML
  * @author java小强
  */
public  class  StringHtmlSpider {
     public  static  void  main(String[] args) {
         try  {
             String html =  "<html><head><title>First parse</title></head>"
                     "<body><p>from www.javacui.com</p></body></html>" ;
             Document doc = Jsoup.parse(html);
             Elements elements = doc.getElementsByTag( "p" ); // 根据标签获取
             Element e = elements.get( 0 ); // 因为我知道只有一个p
             System.out.println(e.text());
             // 打印 from www.javacui.com
         catch  (Exception e) {
             e.printStackTrace();
         }
     }
}


从本地文件加载

在本机硬盘上有一个HTML文件,需要对它进行解析从中抽取数据或进行修改。本示例HTML文件内容和上面示例字符串内容一致。

?
1
2
File input =  new  File( "D:\\javacui.html" );
Document doc = Jsoup.parse(input,  "UTF-8" );

这个方法用来加载和解析一个HTML文件。如在加载文件的时候发生错误,将抛出IOException,应作适当处理。

实用示例:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
package  com.cui.test;
import  java.io.File;
import  org.jsoup.Jsoup;
import  org.jsoup.nodes.Document;
import  org.jsoup.nodes.Element;
import  org.jsoup.select.Elements;
/**
  * 从本地文件解析HTML
  * @author java小强
  */
public  class  LocalDiskSpider {
     public  static  void  main(String[] args) {
         try  {
             File input =  new  File( "D:\\javacui.html" );
             Document doc = Jsoup.parse(input,  "UTF-8" );
             Elements elements = doc.getElementsByTag( "p" ); // 根据标签获取
             Element e = elements.get( 0 ); // 因为我知道只有一个p
             System.out.println(e.text());
             // 打印 from www.javacui.com
         catch  (Exception e) {
             e.printStackTrace();
         }
     }
}


来自网络

你需要从一个网站获取和解析一个HTML文档,并查找其中的相关数据。

?
1
2
Document doc = Jsoup.connect( "http://www.javacui.com/" ).get();
String title = doc.title();

connect(String url) 方法创建一个新的 Connection, 和 get() 取得和解析一个HTML文件。如果从该URL获取HTML时发生错误,便会抛出 IOException,应适当处理。

Connection 接口还提供一个方法链来解决特殊请求,具体如下:

?
1
2
3
4
5
6
Document doc = Jsoup.connect( "http://example.com" )
   .data( "query" "Java" )
   .userAgent( "Mozilla" )
   .cookie( "auth" "token" )
   .timeout( 3000 )
   .post();

这个方法只支持Web URLs (http和https 协议)。

使用代码参考:http://www.javacui.com/opensource/463.html 


Jsoup加载HTML的三种方式


参考官网:https://jsoup.org/ 


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值