如何采用htmlParser来获取网络资源

最新推荐文章于 2021-02-19 08:47:30 发布

crazy_rain

最新推荐文章于 2021-02-19 08:47:30 发布

阅读量1.4k

点赞数

文章标签：网络 exception import filter string url

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/crazy_rain/article/details/1527797

版权

import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.util.NodeList;
/**
* Author: crazy_rain
* Date: 2007-3-13
* Time: 下午12:55:42
* Introduction:网络资源抓取器,htmlParser 使用小结
*/
public class ResourceFetcher {

public static void parseResource(String url) throws Exception {
  Parser p = new Parser(url);
  NodeFilter filter = new TagNameFilter("HEAD");
  // NodeFilter nf = new NodeClassFilter(ImageTag.class);
  // NodeFilter nf = new NodeClassFilter(BodyTag.class);
  // NodeFilter nf = new NodeClassFilter(InputTag.class);
  // NodeFilter nf = new NodeClassFilter(Html.class);
  // NodeFilter nf = new NodeClassFilter(HeadTag.class);
  // NodeFilter nf = new NodeClassFilter(LinkTag.class);
  // NodeFilter nf = new NodeClassFilter(ScriptTag.class);
  NodeList nl = p.extractAllNodesThatMatch(filter);
  for (int i = 0; i < nl.size(); i++) {
   System.out.println(nl.elementAt(i).toHtml());
  }
}
public static void main(String args[]) throws Exception{
  parseResource("http://www.zzu.edu.cn");
}

}

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

crazy_rain CSDN认证博客专家 CSDN认证企业博客

码龄18年

37: 原创

105万+: 周排名

203万+: 总排名

23万+: 访问

: 等级

2486: 积分

18: 粉丝

16: 获赞

25: 评论

26: 收藏

私信

关注

热门文章

分类专栏

数据库 1篇

最新评论

mysql存储过程学习总结
fj3k2: 太基础了
快速排序原理及java实现
qq_40650808: 您的这个原理我看懂了但是您的这个代码的排序执行顺序和您的排序原理只有每一大步的结果一致中间的过程并不一致这是为什么实际结果为[45, 36, 18, 30, 72, 53, 48, 93, 15, 36] [45, 36, 18, 30, 15, 53, 48, 93, 72, 36] [45, 36, 18, 30, 15, 36, 48, 93, 72, 53] [36, 36, 18, 30, 15, 45, 48, 93, 72, 53] 这是第一步的执行顺序和结果只有最后一步是一样的这是为什么呢小白求解释
怎么将word文档转为pdf
落在胸口的星星: [code=java] rm=new ReleaseManager(); app = new IDispatch(rm, "PDFMakerAPI.PDFMakerApp"); Object ot = app.method("CreatePDF",new Object[]{officePath,pdfPath}); System.out.print(ot.toString()); [/code] 这里控制台输出0或其他负数就是转换不成功不知道楼主遇到过没
ORA-12638: 身份证明检索失败
钟政123: 感谢大侠救命之恩
ECSide入门简单例子(转fins)
Lee_Anson: 想问下如何加超链接呢

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。