java使用Document类解析html

今天工作中用到了解析html获取其中的标签内容,在此记录一下:
先感谢两个帖子:
引用:
https://www.cnblogs.com/blog5277/p/6704288.html
https://blog.csdn.net/zhanglei500038/article/details/74858395
接下来是我的应用:

<DIV class="navbar navbar-inverse navbar-fixed-top">
  <DIV class="navbar-inner">
    <DIV class="container-fluid">
      <a class="brand lnk-file-title" STYLE="text-decoration: none; width: 200px" TITLE=" ">&nbsp;</a>
      <a id="btnPrint" STYLE="margin:0px;padding:10px;" href="javascript:;" onClick="printDoc()">
        <img src="./1281e94387f5efb28be502f828edc032.files/print.png">
      </a>
      <DIV class="changePage">
        <a class="pageUp" href="javascript:;" onClick="slidePage(0)"></a>
        <a class="pageDown" href="javascript:;" onClick="slidePage(1)"></a>
        <SPAN STYLE="padding:0px 10px 0px 10px">Page:</SPAN>
        <INPUT class="activePage" type="text" Value="1" onBlur="changePage(this.value)" onkeyup="this.value=this.value.replace(/[^0-9]/g,'')" onafterpaste="this.value=this.value.replace(/[^0-9]/g,'')">
        <SPAN class="totalPage"></SPAN>
      </DIV>
    </DIV>
  </DIV>
</DIV>
<DIV id="printArea" STYLE="display:none"></DIV>
<DIV class="container-fluid container-fluid-content">
  <DIV class="row-fluid">
    <DIV class="span12 docArea">
      <DIV class="word-page" STYLE="width:921px;height:1275px" data-loaded="true">
        <DIV class="word-content">
          <embed src="1281e94387f5efb28be502f828edc032.files/1.svg" width="100%" height="100%" type="image/svg+xml"></embed>
        </DIV>
      </DIV>
      <DIV class="word-page" STYLE="width:921px;height:1275px" data-loaded="true">
        <DIV class="word-content">
          <embed src="1281e94387f5efb28be502f828edc032.files/2.svg" width="100%" height="100%" type="image/svg+xml"></embed>
        </DIV>
      </DIV>
      <DIV class="word-page" STYLE="width:921px;height:1275px" data-loaded="true">
        <DIV class="word-content">
          <embed src="1281e94387f5efb28be502f828edc032.files/3.svg" width="100%" height="100%" type="image/svg+xml"></embed>
        </DIV>
      </DIV>
      <DIV class="word-page" STYLE="width:921px;height:1275px" data-loaded="true">
        <DIV class="word-content">
          <embed src="1281e94387f5efb28be502f828edc032.files/4.svg" width="100%" height="100%" type="image/svg+xml"></embed>
        </DIV>
      </DIV>
      <DIV class="word-page" STYLE="width:921px;height:1275px" data-loaded="true">
        <DIV class="word-content">
          <embed src="1281e94387f5efb28be502f828edc032.files/5.svg" width="100%" height="100%" type="image/svg+xml"></embed>
        </DIV>
      </DIV>
      <DIV class="word-page" STYLE="width:921px;height:1275px">
        <DIV class="word-content"></DIV>
      </DIV>
    </DIV>
  </DIV>
</DIV>

我是要拿取embed标签中的src的内容:
对上面两个帖子进行整合:

public static List<String> match(String source, String element, String attr) {
    List<String> result = new ArrayList<String>();
    String reg = "<" + element + "[^<>]*?\\s" + attr + "=['\"]?(.*?)['\"]?\\s.*?>";
    Matcher m = Pattern.compile(reg).matcher(source);
    while (m.find()) {
        String r = m.group(1);
        result.add(r);
    }
    return result;
}
 public static void main(String[] args) throws MalformedURLException, IOException {
	Document doc= Jsoup.parse(new URL("http://docv.hdkt100.com/2018/11/1281e94387f5efb28be502f828edc032.html"),100000);
	String html = doc.toString();
   // String source = "<a title=中国体育报 href=''>aaa</a><a title='北京日报' href=''>bbb</a>";
    List<String> list = match(html, "embed", "src");
    System.out.println(list);
}

其中用到的jar包:

	<dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.10.2</version>
        </dependency>
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值