Jsoup
基于java平台的HTML解析工具,针对HTML字符串,URL地址。
功能
1. URL基于网络解析HTML
2. HTML字符串解析
3. 类DOM或CSS选择器解析
4. 解析Body片段
字符串、文件、网络解析、DOM树解析、选择器解析:
package util
import org.jsoup.Jsoup
import org.jsoup.nodes.Document
import org.jsoup.nodes.Element
import org.jsoup.select.Elements
import java.io.File
//字符串解析
fun loadFromString() {
val stringURL:String = "<html><head><title>just for an example</title></head>" +
"<body>Hello World</body></html>"
val doc = Jsoup.parse(stringURL)
println("字符串解析")
println(doc.title())
println(doc.body())
println("---------------")
}
//html文件解析
fun loadFromFile(){
val file:File = File("D:/hello.htm")
val doc:Document = Jsoup.parse(file,"utf-8")
println("HTML文件解析")
println(doc.title())
println(doc.body())
println("----------------")
}
//网络获取解析(自动创建Connection取得HTML,出错抛出IO异常)
fun loadFromNet(){
val doc:Document = Jsoup.connect("http://www.baidu.com").get()
println("网络获取解析")
println(doc.title())
println("-----------------")
// //特殊需求样例
// val doc2:Document = Jsoup.connect("http://www.baidu.com")
// .data("query","info") // 请求参数