larbin的类得分析

最新推荐文章于 2024-09-12 18:22:06 发布

aican_yu

最新推荐文章于 2024-09-12 18:22:06 发布

阅读量451

点赞数

分类专栏： larbin 文章标签： class url html 磁盘文档

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/aican_yu/article/details/6914267

版权

larbin 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

class url : 处理URL的, 包括显示, 分析URL, 得到主机, 端口, 文件数据等.

class hashTable: 需要对URL进行排重, 是一个比较大的url Hash表

class hashDup: 对网页的内容进行排重, 是一个Document Hash表.

class PersistentFifo: 爬行下来的URL量比较大, 需要存到磁盘上, 所以用到一个FIFO队列, 程序中用类class PersistentFifo实现的.

class NamedSite: 爬虫一般是对多个网站进行爬取, 但在同时站点内的DNS的请求可以只做一次, 这就需要将主机名独立url, Larbin有一个类class NamedSite进行处理.

class IPSite: 主机名解析完成后需要有一个解析完成的IP类class IPSite与之应用, 用于connect的时候使用.

class html: 对于抓取回来的HTML文档, 需要进行解析, 需要一个用于HTML解析的类, larbin的解析类为class html.

再加上connexion, text文件中的字符串处理函数, 用于连接队列的class ConstantSizedFifo类, Larbin的主要部分就算完成了.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
larbin的类得分析

class url : 处理URL的, 包括显示, 分析URL, 得到主机, 端口, 文件数据等.class hashTable: 需要对URL进行排重, 是一个比较大的url Hash表class hashDup: 对网页的内容进行排重, 是一个Document Hash表.class PersistentFifo: 爬行下来的URL量比较大, 需要存到磁盘上, 所以用到一个FIFO
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。