提取html中的链接

最新推荐文章于 2023-07-28 11:32:23 发布

eckoqzhang

最新推荐文章于 2023-07-28 11:32:23 发布

阅读量668

点赞数

分类专栏： java 文章标签： html

本文链接：https://blog.csdn.net/u010914684/article/details/29654511

版权

java 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

eclipse:导入htmlparser.jar

import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.*;
import org.htmlparser.filters.*;
import org.htmlparser.Parser;
import org.htmlparser.util.ParserException;

public class HtmlParserGetPageUrls {
   public static void main(String[] args) throws ParserException
   {
       try {
           ParseHtmlText("http://www.hzau.edu.cn/2014/ch/", "GB2312"); //网址可以自己修改

       } catch (ParserException e) {
           e.printStackTrace();
       }

   }

   public static void ParseHtmlText(String url, String pageEncoding) throws ParserException
   {
       NodeList nodes = null;
       try {
       Parser parser = new Parser(url);   //访问目标网站
       parser.setEncoding(pageEncoding);   //设置解析编码的格式
       nodes = parser.parse(new NodeClassFilter(LinkTag.class));   //关键这里设置解析时的NodeFilter
       }catch (ParserException e) {
           e.printStackTrace();
       }

       if (nodes != null && nodes.size() > 0) {
               for (int i = 0; i < nodes.size(); i++) {
                   String urlLink = ((LinkTag)nodes.elementAt(i)).extractLink();
                   String linkName = ((LinkTag)nodes.elementAt(i)).getLinkText();
                       System.out.println(linkName+": "+urlLink);
               }
       }


   }
}

eckoqzhang

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
提取html中的链接

eclipse:导入htmlparser.jarimport org.htmlparser.tags.LinkTag;import org.htmlparser.util.*;import org.htmlparser.filters.*;import org.htmlparser.Parser;import org.htmlparser.util.ParserExceptio
复制链接

扫一扫