特定网站爬虫---原理篇

11 篇文章 0 订阅

1:http://www.shuoshuo520.com/

的小说网站爬虫,又定向简单到智能爬取数据的学习路径。

 

1:爬虫原理。

 

就是对url连接的搜索:

 

具体使用广度优先搜索:

 


 

访问的路径是  A - B C D E F -H G - I

 

使用队列保存 ,就是 A 先入队  出对 ,在B C D E F 入队 ,在B C D E出对  H入队 F出对 G入队 H出对 I入队

 

目前的方法:

 

一个 PaserUrlUtil类 解析 和处理 url和html 主要用HttpClient和Jsoup

 

一个是队列类LinkedQueue,保存已经访问的url和添加新的 url实体,处理url的去重操作

 

一个Crawler主程序类,宽度搜索url,知道没有可处理的为止,目标网站 深度是6层也结束。

 

想队列中添加新的urlhttp://www.shuoshuo520.com/book9/
想队列中添加新的urlhttp://www.shuoshuo520.com/book10/
想队列中添加新的urlhttp://www.shuoshuo520.com/modules/article/index.php?fullflag=1
已经访问的url--http://www.shuoshuo520.com/book1/
正在处理的url实体--deptValue--1--url--http://www.shuoshuo520.com/book1/
bookUrls-处理进入 deptvalue-==1-
bookUrls--http://www.shuoshuo520.com/Book1/2.html
bookUrls--http://www.shuoshuo520.com/Book1/3.html
bookUrls--http://www.shuoshuo520.com/Book1/4.html
bookUrls--http://www.shuoshuo520.com/Book1/5.html
bookUrls--http://www.shuoshuo520.com/Book1/6.html
bookUrls--http://www.shuoshuo520.com/Book1/7.html
bookUrls--http://www.shuoshuo520.com/Book1/8.html
 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值