测试Windows Live Writer

最新推荐文章于 2024-10-30 18:07:32 发布

weixin_34112208

最新推荐文章于 2024-10-30 18:07:32 发布

阅读量46

点赞数

文章标签： java

原文链接：http://blog.51cto.com/drh0534/1333628

版权

  1: import java.io.IOException;

  2: import java.util.HashSet;

  3: import java.util.Set;

  4: import java.util.regex.Matcher;

  5: import java.util.regex.Pattern;

6:

  7: import org.jsoup.Jsoup;

  8: import org.jsoup.nodes.Document;

  9: import org.jsoup.nodes.Element;

 10: import org.jsoup.select.Elements;

11:

 12: publicclass MainClass {

13:

 14:   privatestatic Set<String> urlSet = new HashSet<String>();

 15:   /**

 16:    * http:

 17:    * https:

 18:    */

 19:   privatestatic Pattern p = Pattern

 20:       .compile(

 21:           "^(((http|https)://" +

 22:           "(www.|([1-9]|[1-9]\\d|1\\d{2}|2[0-1]\\d|25[0-5])" +

 23:           "(\\.(\\d|[1-9]\\d|1\\d{2}|2[0-4]\\d|25[0-5])){3}:[0-9]+/)?)" +

 24:           "{1}.+){1}quot;",

 25:           Pattern.CASE_INSENSITIVE);

26:

 27:   publicstaticvoid main(String[] args) {

 28:     String baseUrl = "http://www.sina.com";

 29:     spiderInternet(baseUrl, "");

 30:   }

31:

 32:   privatestaticvoid spiderInternet(String baseUrl, String exUrl) {

 33:     if (baseUrl.endsWith("/") && exUrl.startsWith("/")) {

 34:       baseUrl = baseUrl.substring(0, baseUrl.length() - 1);

 35:     }

 36:     String new_url = baseUrl + exUrl;

 37:     if (urlSet.contains(new_url)) {

 38:       return;

 39:     }

 40:     System.out.println(new_url);

 41:     try {

 42:       Document doc = Jsoup.connect(new_url).get();

 43:       urlSet.add(new_url);

 44:       Elements links = doc.select("a[href]");

 45:       for (Element link : links) {

 46:         String linkHref = link.attr("href");

 47:         if (linkHref.equals("#")) {

 48:           return;

 49:         }

 50:         Matcher matcher = p.matcher(linkHref);

 51:         if (matcher.matches()) {

 52:           spiderInternet(linkHref, "");

 53:         } else {

 54:           spiderInternet(baseUrl, linkHref);

 55:         }

 56:       }

 57:     } catch (IOException e) {

 58:       e.printStackTrace();

 59:     }

 60:   }

61:

 62: }

63:

测试啊,仅仅是测试.....

转载于:https://blog.51cto.com/drh0534/1333628

weixin_34112208

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

weixin_34112208 CSDN认证博客专家 CSDN认证企业博客

码龄9年

137: 原创

-: 周排名

121万+: 总排名

116万+: 访问

: 等级

7398: 积分

6181: 粉丝

210: 获赞

19: 评论

1322: 收藏

私信

关注

热门文章

最新评论

Traceroute（路由追踪）的原理及实现
2302_78727920: 代码用的啥程序运行的啊
Python3.6实现12306火车票自动抢票，并短信和邮件通知
努力学习的小趴菜: 想问下有试例吗？
检测zookeeper和kafka是否正常
张叫兽的技术研究院: 直接用zkServer.sh status是不是更直接呢？
为什么离不开 Stackoverflow
普通网友: 近期遇到技术问题在各个技术社区找方案，偶然发现云+社区有同步Stack Overflow的技术问答，并将Stack Overflow的内容翻译成中文，例如这些：https://cloud.tencent.com/developer/ask/sof/296970、https://cloud.tencent.com/developer/ask/sof/304956 近期体验了下，翻译的质量还行，好像是用了专门的翻译技术，总体上比谷歌翻译好很多。对于国内开发者来说简直是福音，毕竟中文阅读起来更容易理解。如果遇到翻译不准确的，还可以查看英文原文对照着看，能帮助开发者提升不少效率，大家可以体验下。不过现在云+社区好像没有单独上线Stack Overflow中文内容的板块，大家想体验可以直接在社区站内（社区站内四个字插入超链接：https://cloud.tencent.com/developer/search/ask-%E5%A6%82%E4%BD%95%E5%9C%A8%E7%B1%BB%E4%B8%AD%E4%BB%8E）用中文搜索技术问题试试。
检测zookeeper和kafka是否正常
钱学明-等会病: 到处抄，一点见解都没有，全身一样的答案复制一下，有个吊用啊，傻逼行为

大家在看

pyrhon爬取京东商品评论数据分析（小白来了都会） 175

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。