在java直接请求一个页面,它会返回该页面的源码。这就需要在java中直接处理html源码。
在网上找了相关资料,目前最实用的方法使用Jsoup类。
jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
最喜欢它的类似jQuery的功能,比如,我要选取id=payForm的form表单中的所有子元素,Elements elements = doc.select("form[id=\"payForm\"]").first().children();。这个select方法真是帅爆了。
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.8.3</version>
</dependency>