-
从一个字符串、文件或者一个 URL 中解析HTML
-
提供一系列方法对HTML进行数据抽取
-
对HTML元素、属性、文本进行操作
-
消除不受信任的HTML (来防止XSS攻击)
简言之,安卓跟web爬虫基本上没什么区别,都是通过请求获得响应。Android返回的是json格式的字符串,web返回的是页面,通过Jsoup我们可以方便的对网页的数据进行操作。
首先在Jsoup官网 https://jsoup.org/download 下载对应的jar包
并将下载的jar包导入项目的依赖库中
implementation ‘org.jsoup:jsoup:1.12.1’
然后在gradle中添加以下依赖
compile ‘org.jsoup:jsoup:1.12.1’
由于jsoup需要获取网络数据,所以需要添加网络权限
1.从一个字符串、文件或者一个 URL 中解析HTML
String html = “
- “
Parsed HTML into a doc.
”;
Document doc = Jsoup.parse(html);
当对象是URL时,使用 Jsoup.connect(String url)方法:
Document doc = Jsoup.connect(“http://example.com/”).get();
String title = doc.title();
当URL请求为post方式而不是get方式时
Document doc = Jsoup.connect(“http://example.com”)
.data(“query”, “Java”)
.userAgent(“Mozilla”)
.cookie(“auth”, “token”)
.timeout(3000)
.post();</