今天在过滤元素的时候尝试使用remove方法,发现踩到了一个蛮大的坑,需要注意一下。
待解析的html片段:
<div class="divRow ">
<div class="width25per">王XX</div>
<div class="width25per">配偶</div>
<div class="mobileOnly">受益顺序</div>
<div class="width29per">1</div>
<div class="mobileOnly">百分比</div>
<div class="">100</div>
</div>
解析需求分析:
需要将里面除了“受益顺序”和“百分比”的其他4个字段信息提取出来,因为需要提取的字段的class属性值都没有统一的规律,所以并没有办法根据class属性值来提取,之前用的方法是按照下标来定位和获取元素,今天尝试下把不需要的去掉,只留下需要的。
第一版代码:
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class JsoupTest {
public static void main(String[] args) {
String html = "<div class=\"divRow\"