java判断excel是否打开_Java超简单的网络爬虫技术，老司机带你爬取一大波妹子图！附源码...

最新推荐文章于 2022-06-15 00:41:56 发布

weixin_39795116

最新推荐文章于 2022-06-15 00:41:56 发布

阅读量116

点赞数

文章标签： java判断excel是否打开 java实现rc4带简单界面

一、网络爬虫的基本知识

网络爬虫通过遍历互联网络，把网络中的相关网页全部抓取过来，这体现了爬的概念。爬虫如何遍历网络呢，互联网可以看做是一张大图，每个页面看做其中的一个节点，页面的连接看做是有向边。图的遍历方式分为宽度遍历和深度遍历，但是深度遍历可能会在深度上过深的遍历或者陷入黑洞。所以，大多数爬虫不采用这种形式。另一方面，爬虫在按照宽度优先遍历的方式时候，会给待遍历的网页赋予一定优先级，这种叫做带偏好的遍历。

实际的爬虫是从一系列的种子链接开始。种子链接是起始节点，种子页面的超链接指向的页面是子节点(中间节点)，对于非html文档，如excel等，不能从中提取超链接，看做图的终端节点。整个遍历过程中维护一张visited表，记录哪些节点(链接)已经处理过了，跳过不作处理。

小编整理了一份java学习资料，私信回复【01】，获取源码。

使用宽度优先搜索策略，主要原因有：

a、重要的网页一般离种子比较近，例如我们打开的新闻网站时候，往往是最热门的新闻，随着深入冲浪，网页的重要性越来越低。

b、万维网实际深度最多达17层，但到达某个网页总存在一条很短路径，而宽度优先遍历可以最快的速度找到这个网页

c、宽度优先有利于多爬虫合作抓取。

二、网络爬虫的简单实现

1、定义已访问队列，待访问队列和爬取得URL的哈希表，包括出队列，入队列，判断队列是否空等操作

2、定义DownLoadFile类，根据得到的url，爬取网页内容，下载到本地保存。此处需要引用commons-httpclient.jar，commons-codec.jar，commons-logging.jar。

3、定义HtmlParserTool类，用来获得网页中的超链接(包括a标签，frame中的src等等)，即为了得到子节点的URL。需要引入htmlparser.jar

4、编写测试类MyCrawler，用来测试爬取效果

至此，可以看到f:spider文件夹下面已经出现了很多html文件，都是关于百度的，以“www.baidu.com”为开头。

声明：本文内容来源于网络，如有侵权请联系删除

weixin_39795116

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。